世界模型走了一些弯路

2026-07-02|骡子马|22 个实体|18 条关系

世界模型走了一些弯路

2026年7月2日骡子马葬AI

私以为，世界模型这个概念的发展经过了三个非常幽默的阶段。

葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.

第一阶段：硅谷真懂行的老登如杨立昆、李飞飞，觉得大语言模型在讲故事上没啥空间了，所以从学术圈拽了个新概念过来尝试弯道超车。

但老登们坏就坏在，都在那忙活自己的，也不把概念给统一了，因而导致了世界模型圈的礼乐崩坏。

第二阶段：一些做不好本职工作的视频模型厂独立思考了一下，觉得反正现在能实时生成就能叫世界模型，那我直接别做传统视频模型了，做实时生成视频模型，然后就声称自己是世界模型公司得了呗。于是爱诗、快乐生蚝之流都把世界模型当配货给震撼首发了。

对吧，而且老百姓根本也不知道世界模型应该是啥样，谁先做出来哪怕是一坨也能抢占话语权。

第三阶段：有些邪恶的奋斗逼（如Vivix）开始给这种实时生成视频模型找应用场景了，比如虚拟陪伴虚拟直播，所以别的蹭世界模型的公司也没法纯靠不明所以的demo骗钱了，都得开始假装思考消费者需求了，都得开始把自己包装成数字人公司了。

近几个月此类公司不约而同批量涌现啊。比如最近大力炒作的10人00后团队猫薄荷（Catnip）做的缅因猫（MaineCoon），声称自己做了个「史上最快流式音视频社交模型」，我以为终于有个不炒世界模型概念的了，结果点进官网一看，人家直接宣布自己发明了一种全新的世界模型——社交世界模型。

你们这么造词也太累了，以后直接叫第一世界模型、第二世界模型、第三世界模型得了。

我去查了下，猫薄荷这团队去年底还在做AI视频互动产品（这大概就是社交大模型这个词的来历），思考的还是怎么低成本获客，怎么今年趁着世界模型风摇身直接有训练模型能力了？

现在怎么拿开源框架做个后训练就说自己是世界模型，这风气到底谁开始带的？

造词还不是最封神的，它们还自己造了个基准测试叫SocialVideo Bench，然后自己拉了个榜单，宣布自己取得了第一名。

自己办比赛自己当裁判然后自己进球，建议男足学学，明年咱们也办场世界杯。

这招其实我们的好朋友马卡龙也干过。

马卡龙花大力气搞的Macaron-V1-Preview，实际上是给GLM 5.1后训练加了5个Lora。刚好和他们跑的基准测试挨个对应。

然后下图马卡龙自己跑出来自己第一的4个Bench里，前两个都是马卡龙自己做的。

不知道该说啥了，AI应用转模型原来是这么一回事。

那歌怎么唱来着～听说你还在搞什么原创，搞来搞去好像也就这样～

不过也无所谓了。智谱现在这么火，纯做贴牌代工厂，给大客户搞GLM 5.2后训练不出意外能爆到大金币。你知道的，我们一直相信马卡龙很牛逼❤️

回到主角，我们直接来测测MaineCoon到底有没有东西。

MaineCoon现在主要有两个功能。首先是Instant Video，主打传统的AI视频生成，但特点是快。他们团队的人非常自信，直接在这个功能后面加了个Fast&SOTA的标识。

我用了一下确实特别快，生成一个20秒的视频，基本只需要8～9秒。可以说在Fast这个赛道确实SOTA了。

但在Fast之外，这些视频都不具备使用价值。

比如我输入了一段提示词：世界杯赛场上日本队和巴西队踢球，一个身穿蓝色球衣的日本队队员射门射进了，穿国旗衫的巴西守门员抱头痛哭，看台上穿和服的日本球迷一边跳舞一边庆祝。

成品如下⬇️

可以看出，MaineCoon属于塔可夫斯基入脑了，只会拍长镜头不会分镜，人物主体的动作也不会变化，基本只体现氛围感。

而且整个画面里只有主人公是相对清晰的，背景里的人物全都量子化了，不知道的以为三体人提前打来了，非常恐怖。

所以作为视频模型而言，MaineCoon没啥可聊的，就是比较快，但快也不能当饭吃。

但它还有第二个功能，也就是处于Beta阶段的流式视频生成。使用方法和之前测过的Pixverse、7verse差不多，先生成一个场景，然后通过输入提示词实时改变画面。

*分为Control Mode和Chat Mode两个模式

Control Mode就是当导演，Chat Mode就是找陪聊。我先用Control Mode让它生成了一个外卖小哥跑外卖的场景，然后中途让车撞他、车主打他、警察逮捕他，最后一起吃饺子，成品如下⬇️

画面质量上，和视频生成的问题一样，全是量子人，全是粒子特效，有一种做梦的感觉。

反应速度上，输入一段指令后，也基本是在10秒左右之后对画面进行改变，和之前测过的世界模型差不多，中规中矩吧。

但好的一点是，MaineCoon生成的世界里，角色还真有点逻辑上的一致性，会根据发生的事件改变之后场景、行为和语言。这确实比之前只有七秒记忆的世界模型强太多了。

最后我又测了一下Chat Mode，让它生成一个年轻的狼人帅哥跟我谈恋爱，弥补某乙游下架某男主的遗憾。

结果大半夜差点把我吓晕啊⬇️

MaineCoon生成的角色不知道为啥，会持续缓慢地向屏幕这边凑，可能是想亲我。反正脸就越来越大，嘴巴越来越多，伊藤润二来了都得找个出马的压压惊。

但这确实是MaineCoon三个功能里最能想象到商业化应用场景的那个了：

Instant Video固然快，但Seedance也出mini了；

Control Mode比别的实时生成视频项目耐看，但这玩意真能助力具身或预测未来吗；

唯有Chat Mode，虽然生成的角色都快赶上恐怖片boss了，但万一有人的xp就不是人呢？

神了，这流式生成视频要不直接改名叫刘氏生成视频得了，反正都是跟刘宇抢业务。

当然矬子里拔大个，MaineCoon实则是最近这个赛道比较出彩的，让我们看看它的对手：

没错，伟大的生数在我们发完道歉信后，终于不研究什么龙虾人了，开始研究正经福瑞了。

这实时交互模型，放别人家肯定也直接叫世界模型了。但生数毕竟已经开始做物理向的世界模型Motus了，可能没必要在这也蹭蹭了。

我和他们放在首页的角色「狐妖玉宝」聊了一下，剪辑后的成品如下⬇️

生数这个模型比MaineCoon强的是，可以打开摄像头和屏幕里的角色面对面聊，不用打字，说话就行。

而且屏幕里的角色确实能看到你的动作，be like：

*我问她这是几，她说是三

但这种对用户的观测是需要通过指令触发的，比如我后来啥也不说，纯手舞足蹈了一会，姐们就一点反应都没有，跟个死人一样。

然后生数应该是为了避免像MaineCoon一样人物乱动吓到观众的情况，对角色做了硬性规定：原地站着不动，眼睛死死盯着用户。

所以当我要求她跳个舞的时候，她在那自己像念经一样喃喃自语：轻轻晃肩、转圈、摆动手臂……把提示词给朗诵出来了。

所以当我要求她转个圈的时候，她说：不行，因为我要一直看着你……

👁️👄👁️小姐姐在看着你Little sister is watching you 👁️👄👁️

我建议直接改名伪人模拟器上架Steam得了。

其实这些都还好，都初代产品都可以改，我觉得MaineCoon Chat Mode和Vidu S1作为虚拟陪伴产品最致命的问题有两个：

第一，10秒的延迟在视频生成这个赛道完全能当个卖点，但当用户的需求是唠嗑，就显得太前现代了。都谈人机恋了，谁能接受对面过了10秒才回复你啊？

第二，这俩产品的对话体验还是半双工，类似对讲机，你说一句她说一句，你打断她她也不闭嘴，完全就是小爱同学水平，非常不尊重用户。

不理解以上两点的的可以打开ChatGPT的语音模式，或者给你豆姐打个电话，纯聊日常话题的话，基本是秒听秒回，而且可以随时打断。豆姐率先一步启动边说边监听的全双工模型了，ChatGPT目前是支持中途打断的半双工，最近也开始内测全双工了，这是大势不可逆。

低延迟反应快的细糠吃多了，谁能受得了粗粮啊？

当然，MaineCoon Chat Mode、Vidu S1以及其他实时视频生成产品做不到这些也情有可原：除了处理音频信息之外，哥几个还得处理视频信息，什么口型啊什么人物动作啊都得纳入思考，耗时耗力耗token。

但真有必要吗？

你们现在做的这玩意，动也不动，转身也不会，场景也不变，本质上不就是数字人vtuber吗？

那何必走流式视频的技术路径呢，你们直接把钱投到AI 2.5D建模，做100个皮套，再把豆包的语音模型插进去，直接对口型不就完事了？

这使用体验绝对比现在这些世界模型好。在类似路线上，字节有OmniHuman，快手有Kling-Avatar，蔡浩宇团队都整了个LPM 1.0骄傲地声称已达到全双工无限流水平，说明只要不硬贴世界模型大家都有美好的未来。

这世界模型本没有路，走的公司多了就有了一条弯路，然后创业者都开始走这条弯路，走着走着都忘了两点之间线段最短了。

可怜呐。

最后插播一条幽默新闻。

100年没有新消息的虎牙，最近突然开始搞AI，倒腾出一个叫VAM 1.0的数字人模型。

任谁都能看出来这是个些许过时的缓解焦虑用的向上汇报产品，但它仍然比那些流式生成的数字人有更强的观赏性和可用性。

那还能说啥呢，兄弟们回头是岸吧，骗投资人可以骗AI媒体小编也可以别把自己骗了。如果真有AI陪伴理想，不如趁现在赶紧把公司卖了，买几台硅胶机器人，研究研究怎么把Grok装它们嘴里得了。

葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.

关系 (18)

李飞飞合作杨立昆

文中将两人并列为硅谷懂行的老登，共同推动世界模型概念（非直接合作，属同类人物并列）

7verse对比MaineCoon

文中将MaineCoon的流式生成使用方法与7verse进行对比

ChatGPT对比Vidu S1

文中对比Vidu S1与ChatGPT语音模式的延迟和双工体验

MaineCoon对比OmniHuman

文中建议世界模型公司参考OmniHuman等2.5D建模+语音对口型路线

MaineCoon对比PixVerse

文中将MaineCoon的流式生成使用方法与Pixverse进行对比

MaineCoon对比Seedance

文中对比了MaineCoon Instant Video与Seedance mini的速度和功能

Vidu S1对比豆包

文中对比Vidu S1与豆包语音通话的低延迟全双工体验

猫薄荷对比马卡龙

文中指出马卡龙和猫薄荷都存在自造基准测试、自封第一的行为

MaineCoon竞争Vidu S1

两者均为实时视频生成/虚拟陪伴赛道的竞品，且都被批评延迟高、半双工

字节跳动开发OmniHuman

字节跳动开发OmniHuman数字人产品

字节跳动开发豆包

字节跳动开发豆包AI助手

快手开发Kling-Avatar

快手开发Kling-Avatar数字人产品

智谱AI开发GLM 5.1

GLM 5.1是智谱AI的基座模型

猫薄荷开发MaineCoon

猫薄荷团队开发了MaineCoon社交世界模型

虎牙开发VAM 1.0

虎牙开发VAM 1.0数字人模型

马卡龙开发Macaron-V1-Preview

马卡龙开发了Macaron-V1-Preview模型

GLM 5.1集成Macaron-V1-Preview

Macaron-V1-Preview是基于GLM 5.1进行后训练和Lora微调的

蔡浩宇参与LPM 1.0

蔡浩宇团队开发了LPM 1.0模型