世界模型走了一些弯路

2026-07-02|骡子马|22 个实体|18 条关系

世界模型走了一些弯路

2026年7月2日 骡子马 葬AI


私以为,世界模型这个概念的发展经过了三个非常幽默的阶段。

葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.

第一阶段:硅谷真懂行的老登如杨立昆、李飞飞,觉得大语言模型在讲故事上没啥空间了,所以从学术圈拽了个新概念过来尝试弯道超车。

但老登们坏就坏在,都在那忙活自己的,也不把概念给统一了,因而导致了世界模型圈的礼乐崩坏。

第二阶段:一些做不好本职工作的视频模型厂独立思考了一下,觉得反正现在能实时生成就能叫世界模型,那我直接别做传统视频模型了,做实时生成视频模型,然后就声称自己是世界模型公司得了呗。于是爱诗、快乐生蚝之流都把世界模型当配货给震撼首发了。

对吧,而且老百姓根本也不知道世界模型应该是啥样,谁先做出来哪怕是一坨也能抢占话语权。

第三阶段:有些邪恶的奋斗逼(如Vivix)开始给这种实时生成视频模型找应用场景了,比如虚拟陪伴虚拟直播,所以别的蹭世界模型的公司也没法纯靠不明所以的demo骗钱了,都得开始假装思考消费者需求了,都得开始把自己包装成数字人公司了。

近几个月此类公司不约而同批量涌现啊。比如最近大力炒作的10人00后团队猫薄荷(Catnip)做的缅因猫(MaineCoon),声称自己做了个「史上最快流式音视频社交模型」,我以为终于有个不炒世界模型概念的了,结果点进官网一看,人家直接宣布自己发明了一种全新的世界模型——社交世界模型。

你们这么造词也太累了,以后直接叫第一世界模型、第二世界模型、第三世界模型得了。

我去查了下,猫薄荷这团队去年底还在做AI视频互动产品(这大概就是社交大模型这个词的来历),思考的还是怎么低成本获客,怎么今年趁着世界模型风摇身直接有训练模型能力了?

现在怎么拿开源框架做个后训练就说自己是世界模型,这风气到底谁开始带的?

造词还不是最封神的,它们还自己造了个基准测试叫SocialVideo Bench,然后自己拉了个榜单,宣布自己取得了第一名。

自己办比赛自己当裁判然后自己进球,建议男足学学,明年咱们也办场世界杯。

这招其实我们的好朋友马卡龙也干过。

马卡龙花大力气搞的Macaron-V1-Preview,实际上是给GLM 5.1后训练加了5个Lora。刚好和他们跑的基准测试挨个对应。

然后下图马卡龙自己跑出来自己第一的4个Bench里,前两个都是马卡龙自己做的。

不知道该说啥了,AI应用转模型原来是这么一回事。

那歌怎么唱来着~听说你还在搞什么原创,搞来搞去好像也就这样~

不过也无所谓了。智谱现在这么火,纯做贴牌代工厂,给大客户搞GLM 5.2后训练不出意外能爆到大金币。你知道的,我们一直相信马卡龙很牛逼❤️

回到主角,我们直接来测测MaineCoon到底有没有东西。

MaineCoon现在主要有两个功能。首先是Instant Video,主打传统的AI视频生成,但特点是快。他们团队的人非常自信,直接在这个功能后面加了个Fast&SOTA的标识。

我用了一下确实特别快,生成一个20秒的视频,基本只需要8~9秒。可以说在Fast这个赛道确实SOTA了。

但在Fast之外,这些视频都不具备使用价值。

比如我输入了一段提示词:世界杯赛场上日本队和巴西队踢球,一个身穿蓝色球衣的日本队队员射门射进了,穿国旗衫的巴西守门员抱头痛哭,看台上穿和服的日本球迷一边跳舞一边庆祝。

成品如下⬇️

可以看出,MaineCoon属于塔可夫斯基入脑了,只会拍长镜头不会分镜,人物主体的动作也不会变化,基本只体现氛围感。

而且整个画面里只有主人公是相对清晰的,背景里的人物全都量子化了,不知道的以为三体人提前打来了,非常恐怖。

所以作为视频模型而言,MaineCoon没啥可聊的,就是比较快,但快也不能当饭吃。

但它还有第二个功能,也就是处于Beta阶段的流式视频生成。使用方法和之前测过的Pixverse、7verse差不多,先生成一个场景,然后通过输入提示词实时改变画面。

*分为Control Mode和Chat Mode两个模式

Control Mode就是当导演,Chat Mode就是找陪聊。我先用Control Mode让它生成了一个外卖小哥跑外卖的场景,然后中途让车撞他、车主打他、警察逮捕他,最后一起吃饺子,成品如下⬇️

画面质量上,和视频生成的问题一样,全是量子人,全是粒子特效,有一种做梦的感觉。

反应速度上,输入一段指令后,也基本是在10秒左右之后对画面进行改变,和之前测过的世界模型差不多,中规中矩吧。

但好的一点是,MaineCoon生成的世界里,角色还真有点逻辑上的一致性,会根据发生的事件改变之后场景、行为和语言。这确实比之前只有七秒记忆的世界模型强太多了。

最后我又测了一下Chat Mode,让它生成一个年轻的狼人帅哥跟我谈恋爱,弥补某乙游下架某男主的遗憾。

结果大半夜差点把我吓晕啊⬇️

MaineCoon生成的角色不知道为啥,会持续缓慢地向屏幕这边凑,可能是想亲我。反正脸就越来越大,嘴巴越来越多,伊藤润二来了都得找个出马的压压惊。

但这确实是MaineCoon三个功能里最能想象到商业化应用场景的那个了:

Instant Video固然快,但Seedance也出mini了;

Control Mode比别的实时生成视频项目耐看,但这玩意真能助力具身或预测未来吗;

唯有Chat Mode,虽然生成的角色都快赶上恐怖片boss了,但万一有人的xp就不是人呢?

神了,这流式生成视频要不直接改名叫刘氏生成视频得了,反正都是跟刘宇抢业务。

当然矬子里拔大个,MaineCoon实则是最近这个赛道比较出彩的,让我们看看它的对手:

没错,伟大的生数在我们发完道歉信后,终于不研究什么龙虾人了,开始研究正经福瑞了。

这实时交互模型,放别人家肯定也直接叫世界模型了。但生数毕竟已经开始做物理向的世界模型Motus了,可能没必要在这也蹭蹭了。

我和他们放在首页的角色「狐妖玉宝」聊了一下,剪辑后的成品如下⬇️

生数这个模型比MaineCoon强的是,可以打开摄像头和屏幕里的角色面对面聊,不用打字,说话就行。

而且屏幕里的角色确实能看到你的动作,be like:

*我问她这是几,她说是三

但这种对用户的观测是需要通过指令触发的,比如我后来啥也不说,纯手舞足蹈了一会,姐们就一点反应都没有,跟个死人一样。

然后生数应该是为了避免像MaineCoon一样人物乱动吓到观众的情况,对角色做了硬性规定:原地站着不动,眼睛死死盯着用户。

所以当我要求她跳个舞的时候,她在那自己像念经一样喃喃自语:轻轻晃肩、转圈、摆动手臂……把提示词给朗诵出来了。

所以当我要求她转个圈的时候,她说:不行,因为我要一直看着你……

👁️👄👁️小姐姐在看着你Little sister is watching you 👁️👄👁️

我建议直接改名伪人模拟器上架Steam得了。

其实这些都还好,都初代产品都可以改,我觉得MaineCoon Chat Mode和Vidu S1作为虚拟陪伴产品最致命的问题有两个:

第一,10秒的延迟在视频生成这个赛道完全能当个卖点,但当用户的需求是唠嗑,就显得太前现代了。都谈人机恋了,谁能接受对面过了10秒才回复你啊?

第二,这俩产品的对话体验还是半双工,类似对讲机,你说一句她说一句,你打断她她也不闭嘴,完全就是小爱同学水平,非常不尊重用户。

不理解以上两点的的可以打开ChatGPT的语音模式,或者给你豆姐打个电话,纯聊日常话题的话,基本是秒听秒回,而且可以随时打断。豆姐率先一步启动边说边监听的全双工模型了,ChatGPT目前是支持中途打断的半双工,最近也开始内测全双工了,这是大势不可逆。

低延迟反应快的细糠吃多了,谁能受得了粗粮啊?

当然,MaineCoon Chat Mode、Vidu S1以及其他实时视频生成产品做不到这些也情有可原:除了处理音频信息之外,哥几个还得处理视频信息,什么口型啊什么人物动作啊都得纳入思考,耗时耗力耗token。

但真有必要吗?

你们现在做的这玩意,动也不动,转身也不会,场景也不变,本质上不就是数字人vtuber吗?

那何必走流式视频的技术路径呢,你们直接把钱投到AI 2.5D建模,做100个皮套,再把豆包的语音模型插进去,直接对口型不就完事了?

这使用体验绝对比现在这些世界模型好。在类似路线上,字节有OmniHuman,快手有Kling-Avatar,蔡浩宇团队都整了个LPM 1.0骄傲地声称已达到全双工无限流水平,说明只要不硬贴世界模型大家都有美好的未来。

这世界模型本没有路,走的公司多了就有了一条弯路,然后创业者都开始走这条弯路,走着走着都忘了两点之间线段最短了。

可怜呐。

最后插播一条幽默新闻。

100年没有新消息的虎牙,最近突然开始搞AI,倒腾出一个叫VAM 1.0的数字人模型。

任谁都能看出来这是个些许过时的缓解焦虑用的向上汇报产品,但它仍然比那些流式生成的数字人有更强的观赏性和可用性。

那还能说啥呢,兄弟们回头是岸吧,骗投资人可以骗AI媒体小编也可以别把自己骗了。如果真有AI陪伴理想,不如趁现在赶紧把公司卖了,买几台硅胶机器人,研究研究怎么把Grok装它们嘴里得了。

葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.