返回文章列表
№ 104

生数鉴定为鸭腿吃多了

作者 骡子马 发布 2026-06-15 实体 12 关系 14

生数鉴定为鸭腿吃多了

2026年6月15日 骡子马 葬AI


可以说生数科技是最原教旨主义的清华系AI创业公司:仨创始人都清华的,都一个课题组的,置身清华内,相当于实验室给企业转化了。

怀揣着对优绩主义的病态崇拜,我虔诚地使用了他们的产品Vidu,得出的结论是家人们鹅腿吃多了。

因为从模型能力、产品定位和宣发策略上来看,此公司的学生气都太爆棚了,已经完全满了,马上智能涌现出来了。

首先我万万没有想到,在2026年6月,打开VIdu的网站,映入眼帘的是他们的全新功能ViduClaw。

而且他们真的还在坚持更新这个文档

华北地区最后的龙虾信徒,OpenClaw最后的兵。

连之前天天全国巡演办龙虾气功热活动的那拨人现在都收手了,你还在这「龙虾、我的龙虾」呢。

而且Vidu是真的想把这个ViduClaw作为入口,不管我点进什么页面,他都要跳出来个弹窗啥的提醒我:快来试试咱们最新研发的小龙虾功能吧。

盛情难却啊。于是连OpenClaw都没部署过的我,只能胆战心惊地尝试体验这个时髦功能。

结果发现还好,就是个对话框,也不用自己部署。

但我不理解这玩意存在的意义啊。在Vidu的文档里,他们如此描述ViduClaw和其他模型产品的差异:

自然语言对话、一句话生成……哥们你以为现在是Stable diffusion时代呢?现在市面上哪家产品不能通过说人话来生成视频?哪个视频模型不内置Agent模式?

反而呢,Vidu把其他模型产品封装好的功能给解压了,变成了Skills上传到GitHub上,让用户自己按需下载。

我觉得这套工作流的受众就只有嘉豪做题家。

Be like⬇️

一切的一切都只为了和愚钝的我们炫耀一句:是不是挺难的?

那你赢了啊,我输了啊,我平凡的大脑确实用不明白精英的龙虾,我只能玩明白那些给我安排得明明白白的傻瓜产品😭

无论如何,我还是试了试,想让ViduClaw批量给我做几集清华鹅腿阿姨的短剧。

结果它管我要提示词,让我在这填表。

真把我当学生,把自己当辅导员了。

没办法,我只能用Claude生成了提示词发给它,结果:

对的,无论我如何修改提示词,ViduClaw都坚称这是违规内容不能生成。

安全生产不是问题。但我用同样的提示词在即梦、可灵、PixVerse都畅行无阻啊。

最幽默的是,当我不使用它这个ViduClaw,而是换成普通的文生视频功能之后,这视频也就顺利生成了。

合着你这个龙虾是个安全审核员啊?

我给Vidu提供的故事是:一个CBD国贸精英打工人举着满屏绿色的手机去问鹅腿阿姨,为啥自己的股票绿了,阿姨说,这是绿色新能源汁浸泡腌制形成的无任何危害。

已获得授权

我批量生成了3个视频,其中最能看的成品如下:

真的很令人感到失望。

毕竟Vidu宣称自己「为剧而生」「声画同出」,所以我对角色说台词、对口型还是抱有很大期待的。

结果生成的每个视频,角色的口型都对不上,台词和人物也对不上,还经常胡言乱语。

至于什么角色的动作、物体的稳定性、背景的细节,那更是完全没有任何评价的意义。

很难相信这是一个2026年的视频模型,整个有一种实时生成世界模型的质感,很模糊很混沌。

不如你直接学隔壁PixVerse去做世界模型得了,换个赛道大家心里都舒服点。

哦,原来生数「首个登顶两大权威具身智能评测的通用世界行动模型Motubrain」已经在路上了。那我们拭目以待吧。

我也想过,是不是这个剧情太难了,或者是不是提示词本身就有问题?于是我用PixVerse和即梦都试了一下。

PixVerse:

其实口型对的也一般,但起码是对应的人在说话,而且动作也都凑合能看。

即梦:

AI感是有的,也不能说完美,但至少在动作和口型上都没出问题。比Vidu和PixVerse都强。

我觉得起码做成这样才能宣传「为(AI短)剧而生」吧。

所以Vidu说自己「为剧而生」的底气来自于何处呢?

经过仔细思索,我觉得可能是视频长度。

现在主流的视频模型,无论是即梦、可灵还是PixVerse,单次生成视频的极限一般都是15秒。

咱们Vidu呢,偏偏就是16秒,以一秒之差傲视群雄。

感觉他们想找岳云鹏当代言人,然后高歌一曲,啊16秒,你比15秒多一秒。产品宣传片由张艺谋执导,还叫《一秒钟》。

当然,在生数科技发布那篇介绍Vidu论文的2024年,这16秒是创造历史的。

毕竟彼时Sora还只是内测demo,即梦可灵也都不存在,市面上争夺国产视频模型第一番位的那些大学生项目,生成的视频不超过十秒。Vidu一说自己能连续生成16秒视频直接封神了。

但发布会只是发布会,论文只是论文,等生数正式推出支持生成16秒视频的Vidu Q3时,已经是2026年1月30日,没过几天伟大的Seedance 2.0就上线了,Vidu的16秒纯做给自己看的了。

可怜呐,视频没法看,只有时长赢一秒。

Vidu就很像你那个许久不联系的做题家朋友,高中忙着熬夜做卷,大学卷综测卷绩点,也不实习也不社会化,最后拿着一张印满了学生会头衔和老师评语的简历去面试大厂,斩获0个offer。

于是同学聚会时饮一口白酒,一边洒泪一边叹乎:哎虽然现在我不上桌了,但当年百模大战的时候,我可是比你们多好几秒,还记得那论文……

生数还活在过去,但AI时代的模型迭代得实在太他妈快了,卷得也太他妈激烈了。他昔日的那些国产对手转型的转型、退场的退场,留下的基本就是受大厂庇护的即梦、可灵,还有爱诗科技的PixVerse。

离字节快手的距离有点远了,生数只能和爱诗1v1,颅内复刻当年的激烈。

但这两家本身视频生成能力都属于第二梯队,所以只能进行讲故事大赛,讲商业化的故事,也讲AI视频以外没法商业化的故事。

PixVerse做世界模型,Vidu就做具身大脑,两家你追我赶,都怕直接掉到第三梯队和套壳的那帮人坐一桌。

最新的故事是,生数要启动港股IPO,爱诗也紧接着要上市的消息。俩人连这个也要竞速。

求求你们两家都分点精力在AI视频本身吧😭

话说回来,我认为生数在视频时长上确实是有执念的。

因为上文提到的ViduClaw的一个重要功能,就是全自动把数个短的视频拼到一起,拼成一个长的视频。理论上讲可以无限长。

为了展现这一点,我又打开ViduClaw,给了它一个任务:做一条结合胖猫和鹅腿阿姨的联动动画片。

剧情如上

我还贴心地上传了3张参考图,让他根据这几张图来生成视频。

结果我晚上七点多发出去的消息,它期间磨磨蹭蹭,九十点才把视频做好发我。

而且做出来的30秒视频长这样⬇️

在我已经上传了参考图的情况下,还能让每个画面里的胖猫画风都不一致,不知道的以为这是什么艺术上的考量。

而且最后鹅腿阿姨的形象用的也是胖猫的,这龙虾真是又聋又瞎啊。

这和Vidu宣传的「主体一致」有啥关系?太没有主体性了。

反正Vidu的一切都很学生气,生成出来的视频也给人一种小组作业的感觉。

包括打开他们的公众号,推文内容风格也都跟那种大学官号一样。

就一种酒桌AI圈之感,有没有懂的。

然后最近Vidu可能意识到自己视频质量跟不上了,开始走一个性价比的路线,主要面向B端客户的中年老板。

「价格砍20%!速度飙升20%!最具性价比的视频模型Vidu Q3来了!」

确实没撒谎。我粗略计算了一下,用即梦生成1条视频花的钱,可以用Vidu生成3条视频。

但Vidu生成的3条视频,也没一条能用啊。

尤其是现在Seedance mini也要上了,这要是直接打个三折,那Vidu不彻底没生态位了?

所以Vidu做产品真就学生思维,觉得自己只要努力努力再努力,像个力工似的嗷嗷干,不要钱不要命做牛做马,甲方就乐了就买单了。

实际上花3000块钱雇仨大学生瞎干一个月,不如找个专家干一天。

Vidu赶紧找峰哥上上课吧,再这么活在象牙塔里就完蛋了。

当然,自从今年1月推出了Q3之后,Vidu确实就没有比较大的更新。

是不是正在憋个大的,咱也不好说。我也很期待生数弄出来个真「为剧而生」的视频模型狠狠抽肿我的脸。

但在此之前,你们还是少吃点鸭腿,少点学生气,多进入进入社会吧。

(本文封面由ChatGPT 生成,纯人工写作)

本文实体
← № 103
首页 图谱