返回文章列表

№ 104

生数鉴定为鸭腿吃多了

作者骡子马发布 2026-06-15 实体 12 关系 14

生数鉴定为鸭腿吃多了

2026年6月15日骡子马葬AI

可以说生数科技是最原教旨主义的清华系AI创业公司：仨创始人都清华的，都一个课题组的，置身清华内，相当于实验室给企业转化了。

怀揣着对优绩主义的病态崇拜，我虔诚地使用了他们的产品Vidu，得出的结论是家人们鹅腿吃多了。

因为从模型能力、产品定位和宣发策略上来看，此公司的学生气都太爆棚了，已经完全满了，马上智能涌现出来了。

首先我万万没有想到，在2026年6月，打开VIdu的网站，映入眼帘的是他们的全新功能ViduClaw。

而且他们真的还在坚持更新这个文档

华北地区最后的龙虾信徒，OpenClaw最后的兵。

连之前天天全国巡演办龙虾气功热活动的那拨人现在都收手了，你还在这「龙虾、我的龙虾」呢。

而且Vidu是真的想把这个ViduClaw作为入口，不管我点进什么页面，他都要跳出来个弹窗啥的提醒我：快来试试咱们最新研发的小龙虾功能吧。

盛情难却啊。于是连OpenClaw都没部署过的我，只能胆战心惊地尝试体验这个时髦功能。

结果发现还好，就是个对话框，也不用自己部署。

但我不理解这玩意存在的意义啊。在Vidu的文档里，他们如此描述ViduClaw和其他模型产品的差异：

自然语言对话、一句话生成……哥们你以为现在是Stable diffusion时代呢？现在市面上哪家产品不能通过说人话来生成视频？哪个视频模型不内置Agent模式？

反而呢，Vidu把其他模型产品封装好的功能给解压了，变成了Skills上传到GitHub上，让用户自己按需下载。

我觉得这套工作流的受众就只有嘉豪做题家。

Be like⬇️

一切的一切都只为了和愚钝的我们炫耀一句：是不是挺难的？

那你赢了啊，我输了啊，我平凡的大脑确实用不明白精英的龙虾，我只能玩明白那些给我安排得明明白白的傻瓜产品😭

无论如何，我还是试了试，想让ViduClaw批量给我做几集清华鹅腿阿姨的短剧。

结果它管我要提示词，让我在这填表。

真把我当学生，把自己当辅导员了。

没办法，我只能用Claude生成了提示词发给它，结果：

对的，无论我如何修改提示词，ViduClaw都坚称这是违规内容不能生成。

安全生产不是问题。但我用同样的提示词在即梦、可灵、PixVerse都畅行无阻啊。

最幽默的是，当我不使用它这个ViduClaw，而是换成普通的文生视频功能之后，这视频也就顺利生成了。

合着你这个龙虾是个安全审核员啊？

我给Vidu提供的故事是：一个CBD国贸精英打工人举着满屏绿色的手机去问鹅腿阿姨，为啥自己的股票绿了，阿姨说，这是绿色新能源汁浸泡腌制形成的无任何危害。

已获得授权

我批量生成了3个视频，其中最能看的成品如下：

真的很令人感到失望。

毕竟Vidu宣称自己「为剧而生」「声画同出」，所以我对角色说台词、对口型还是抱有很大期待的。

结果生成的每个视频，角色的口型都对不上，台词和人物也对不上，还经常胡言乱语。

至于什么角色的动作、物体的稳定性、背景的细节，那更是完全没有任何评价的意义。

很难相信这是一个2026年的视频模型，整个有一种实时生成世界模型的质感，很模糊很混沌。

不如你直接学隔壁PixVerse去做世界模型得了，换个赛道大家心里都舒服点。

哦，原来生数「首个登顶两大权威具身智能评测的通用世界行动模型Motubrain」已经在路上了。那我们拭目以待吧。

我也想过，是不是这个剧情太难了，或者是不是提示词本身就有问题？于是我用PixVerse和即梦都试了一下。

PixVerse：

其实口型对的也一般，但起码是对应的人在说话，而且动作也都凑合能看。

即梦：

AI感是有的，也不能说完美，但至少在动作和口型上都没出问题。比Vidu和PixVerse都强。

我觉得起码做成这样才能宣传「为(AI短)剧而生」吧。

所以Vidu说自己「为剧而生」的底气来自于何处呢？

经过仔细思索，我觉得可能是视频长度。

现在主流的视频模型，无论是即梦、可灵还是PixVerse，单次生成视频的极限一般都是15秒。

咱们Vidu呢，偏偏就是16秒，以一秒之差傲视群雄。

感觉他们想找岳云鹏当代言人，然后高歌一曲，啊16秒，你比15秒多一秒。产品宣传片由张艺谋执导，还叫《一秒钟》。

当然，在生数科技发布那篇介绍Vidu论文的2024年，这16秒是创造历史的。

毕竟彼时Sora还只是内测demo，即梦可灵也都不存在，市面上争夺国产视频模型第一番位的那些大学生项目，生成的视频不超过十秒。Vidu一说自己能连续生成16秒视频直接封神了。

但发布会只是发布会，论文只是论文，等生数正式推出支持生成16秒视频的Vidu Q3时，已经是2026年1月30日，没过几天伟大的Seedance 2.0就上线了，Vidu的16秒纯做给自己看的了。

可怜呐，视频没法看，只有时长赢一秒。

Vidu就很像你那个许久不联系的做题家朋友，高中忙着熬夜做卷，大学卷综测卷绩点，也不实习也不社会化，最后拿着一张印满了学生会头衔和老师评语的简历去面试大厂，斩获0个offer。

于是同学聚会时饮一口白酒，一边洒泪一边叹乎：哎虽然现在我不上桌了，但当年百模大战的时候，我可是比你们多好几秒，还记得那论文……

生数还活在过去，但AI时代的模型迭代得实在太他妈快了，卷得也太他妈激烈了。他昔日的那些国产对手转型的转型、退场的退场，留下的基本就是受大厂庇护的即梦、可灵，还有爱诗科技的PixVerse。

离字节快手的距离有点远了，生数只能和爱诗1v1，颅内复刻当年的激烈。

但这两家本身视频生成能力都属于第二梯队，所以只能进行讲故事大赛，讲商业化的故事，也讲AI视频以外没法商业化的故事。

PixVerse做世界模型，Vidu就做具身大脑，两家你追我赶，都怕直接掉到第三梯队和套壳的那帮人坐一桌。

最新的故事是，生数要启动港股IPO，爱诗也紧接着要上市的消息。俩人连这个也要竞速。

求求你们两家都分点精力在AI视频本身吧😭

话说回来，我认为生数在视频时长上确实是有执念的。

因为上文提到的ViduClaw的一个重要功能，就是全自动把数个短的视频拼到一起，拼成一个长的视频。理论上讲可以无限长。

为了展现这一点，我又打开ViduClaw，给了它一个任务：做一条结合胖猫和鹅腿阿姨的联动动画片。

剧情如上

我还贴心地上传了3张参考图，让他根据这几张图来生成视频。

结果我晚上七点多发出去的消息，它期间磨磨蹭蹭，九十点才把视频做好发我。

而且做出来的30秒视频长这样⬇️

在我已经上传了参考图的情况下，还能让每个画面里的胖猫画风都不一致，不知道的以为这是什么艺术上的考量。

而且最后鹅腿阿姨的形象用的也是胖猫的，这龙虾真是又聋又瞎啊。

这和Vidu宣传的「主体一致」有啥关系？太没有主体性了。

反正Vidu的一切都很学生气，生成出来的视频也给人一种小组作业的感觉。

包括打开他们的公众号，推文内容风格也都跟那种大学官号一样。

就一种酒桌AI圈之感，有没有懂的。

然后最近Vidu可能意识到自己视频质量跟不上了，开始走一个性价比的路线，主要面向B端客户的中年老板。

「价格砍20%！速度飙升20%！最具性价比的视频模型Vidu Q3来了！」

确实没撒谎。我粗略计算了一下，用即梦生成1条视频花的钱，可以用Vidu生成3条视频。

但Vidu生成的3条视频，也没一条能用啊。

尤其是现在Seedance mini也要上了，这要是直接打个三折，那Vidu不彻底没生态位了？

所以Vidu做产品真就学生思维，觉得自己只要努力努力再努力，像个力工似的嗷嗷干，不要钱不要命做牛做马，甲方就乐了就买单了。

实际上花3000块钱雇仨大学生瞎干一个月，不如找个专家干一天。

Vidu赶紧找峰哥上上课吧，再这么活在象牙塔里就完蛋了。

当然，自从今年1月推出了Q3之后，Vidu确实就没有比较大的更新。

是不是正在憋个大的，咱也不好说。我也很期待生数弄出来个真「为剧而生」的视频模型狠狠抽肿我的脸。

但在此之前，你们还是少吃点鸭腿，少点学生气，多进入进入社会吧。

（本文封面由ChatGPT 生成，纯人工写作）

本文实体

Vidu PixVerse ViduClaw 即梦可灵 OpenClaw 生数科技 Motubrain Sora 字节跳动快手爱诗科技

← № 103

首页图谱