用豆包办公得坐小孩那桌

2026-06-25|骡子马|12 个实体|15 条关系

用豆包办公得坐小孩那桌

2026年6月25日骡子马葬AI

最近字节开了大会，宣布Seed 2.1来了，又登顶了又质变了又革命了，又增加办公模式能完成主人的任务了。

我第一反应是不信啊。因为之前豆包给人的形象就是「好用但没那么耐用」，可以跟她聊天、陪她唱歌、问点弱智吧问题，但没见身边谁真敢用她干正经活的。

葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.

结果你豆姐这下宣布转行，不当陪玩当秘书了？

第一时间紧急测试了一下，看看到底咋回事。

结果一套测下来，API花了快200，豆包69元的标准专业版更是开了五个任务就把额度用完了，只能升级成了200元的进阶版。

以前只有测视频模型的时候有这么大开销，豆包你变了😭

而且这个豆包专业版怎么看起来和Trae Work没区别呢？到底主推哪个？还是也整上腾讯赛马这一套了。

测试一：世界杯足球游戏

首先是编程场景。我把Doubao-Seed-2.1-pro接入了字节旗下的Trae，原汤化原食。

最近Fable 5出来之后，X上好多AI博主都声称自己用Claude手搓出很多游戏。虽然现在Fable 5不给用了，但我觉得拿这个当测试不错。

于是我让Gemini 3.5 Flash、GPT-5.5和Doubao-Seed-2.1-pro分别给我做一个「包含中国队的世界杯游戏」。

然后GPT-5.5生成的是这样的⬇️

哎我，看着还真挺像个低配版FIFA游戏。不仅能加速、抢断、射门，还能换选手。

至于Gemini 3.5 Flash，生成的是这样的⬇️

这下直接两边都只剩下一个人了，而且除了射门别的啥也干不了。

最后，Doubao-Seed-2.1-pro给我的成品是这样的⬇️

有点惊喜，因为按照昨天咸鱼的测试，Seed的编程能力鉴定为拉完了，没想到竟然还是个游戏。

但缺点是后来那个足球直接飞天上粘空气墙上了，谁也碰不到球，只能平局了。

测试二：峰哥简历网页

当然做网页游戏是个炒作任务，让我们来看看真正的活能不能干。

所以我又让接入了Opus 4.8和Doubao-Seed-2.1-pro同时开启了一个「给博主@峰哥亡命天涯做一个Apple官网风格的介绍网站，要求有3D效果和视差滚动效果」的任务。

Opus 4.8用了5分钟把网页做好了⬇️

Apple官网的配色和风格模仿得不错，视差滚动的效果也有。

但3D主要体现在卡片的倾斜，看不太出来，有点敷衍。

然后不知为何，同样的提示词，Doubao-Seed-2.0-pro用了足足20分钟。

看看成品：

虽然和Apple官网风格基本没啥关系了，但特效确实够酷炫啊。

Seed做网页有一种农村暴发户心态，就猛猛堆料啊。

最大的问题是，峰哥的照片、语录和作品都是瞎编的。按理说峰哥作为你们抖音平台大博主，搜不到他信息不应该吧。

也或许这不是苹果峰哥，这是安卓峰哥。

世界杯游戏和峰哥网页这两个任务有一个相同的缺点，就是耗时实在太太太太太长了，这俩任务花的时间基本是其他模型的四倍左右。

我都怀疑Seed是为了用户满意自己偷偷抽卡了，把任务重复了四次然后挑了个好看的发给我。

所以Doubao-Seed-2.1-pro有点像漂亮饭，拍个照片发朋友圈还行，但真当正餐吃就有点遭罪。毕竟哥几个用AI就是为了降本增效，你现在本也不低，效也不高，属于最美逆行者了。

测试三：朝鲜餐厅vlog剪辑

紧接着我又测了视觉理解场景。

前一阵我去了上海著名的朝鲜国营餐厅高丽馆吃饭，期间拍摄诸多视频素材，但一直没把它们剪成vlog。于是我就把它们导入电脑，让Opus 4.8和Doubao-Seed-2.1-pro分别对影像素材进行标注、整理和剪辑包装，然后把视频中将军的脸都打上马赛克。

先看看Opus 4.8最后剪辑出来的⬇️

配的字幕都太刻板印象集美集帅风了，不像人能说出来的话，不过确实基本上把将军的脸严严实实地挡住了。

再看看Doubao-Seed-2.1-pro，这一轮我使用了豆包专业版的「办公任务」功能。它先是把素材给我整理成如下表单⬇️

虽然看着很认真很详细，可惜很多内容都瞎编的。

比如因为朝鲜餐厅歌舞表演的时候严禁录像，所以根本就没有小姐姐能歌善舞的视频，豆包却声称我录制了数段，属于给我扣帽子不想让我好好活。

再比如我根本也没点他说的什么大同江啤酒、人参鸡汤，也没和朝鲜小姐姐合影，都是豆包的幻想。

其实之前大家用豆包很多时候都是图它情绪价值拉满，这没啥毛病。

但要是都选择「办公任务」了，还整情绪价值那一套就有点欺上瞒下了。

扯远了。我又让豆包把这些视频剪辑成一个vlog，并给将军的脸都打上马赛克。成品如下⬇️

比Opus 4.8强的地方是有的：配的旁白更有网感；由于Seed有自己的语音模型，所以有悦耳的画外音；还会自行根据画面内容，决定是放原声还是画外音，整个松弛有度。

但也有致命问题：我让豆包给将军的脸打马赛克，豆包研究半天，最后差点把马赛克打我脸上了。

*上边是Claude的，下边是豆包的

喷了啊。不是说多模态能力逆天吗，怎么就这？

之前老有字节审核员担心自己被AI取代，现在我宣布，你们不用杞人忧天了，因为Al连将军的脸都看不到。

之前还以为字节不把审核都裁光是人道主义精神，现在看来是模型能力还没到那个水准。

人类要感谢豆包。

测试四：伦理综艺影视解说

后来我又找了一集《辣妈庄园》，让豆包把它剪辑成适合抖音播放的影视解说短视频——这也是豆包高调宣布自己新进化出来的能力。

甚至有个宣传Case说一次性消化了两个多小时的长视频，产出了精准的解说视频。我来看看真实水平如何？

哦补充一下，《辣妈庄园》是一档知名恋爱综艺节目，主要剧情就是8个单亲妈妈和她们的8个儿子交叉谈恋爱。我觉得这种关系复杂的群像剧最能考验AI的理解能力。

经过多轮修整，Doubao-Seed-2.0-pro给我的成品如下⬇️

乍一看没啥问题，但解说和画面却是完全不搭配。

比如该放剧情镜头的时候，放的全是访谈画面，毫无视觉冲击力。

比如解说提到「八个儿子啥衣服也没穿」的时候，画面里大伙还都衣冠整齐呢。

不过细想感觉也还好，也许抖音用户看视频有时候也根本不在乎画面是啥，就纯听声。所以没准这个功能真能把影视解说小编给干失业了。

测试五：雀魂游戏代打

豆包的任务模式宣称可以控制网页和电脑，填表、买票这种小事我估计都不在话下，也不用测了。

所以我让它打开雀魂，帮我打一局日本麻将。

结果豆包打着打着，直接把自己给打得怀疑人生了。一会疑惑自己手里拿的到底啥牌，一会疑惑自己到底打的是啥牌，把麻将打成悬疑游戏了。

后来我看了眼回放，发现虽然豆包表面上跟我说的头头是道，搁那假装博弈，实则比赛过程中纯纯cos傻博弈，抓到啥牌打啥牌。

为啥会这样呢？总不能是故意骗我吧。

研究一番后发现，我以为豆包执行这个打麻将的任务，靠的是实时视频流输入来观测和控制网页。但实际上它跟之前豆包手机的方案一样，是在高强度高频次截图，然后通过分析图片的方式思考牌局。

这就带来两个问题：

1.比赛画面实时变动，你上一秒截图里的牌局下一秒都不存在了，在那分析一通纯对空气打拳；

2.如果分析得快也还行，但还是之前说的，Seed模型实在是太慢了，等它分析完这一回合，比赛都进行了10个回合了，对家都胡了。

这俩问题在真正的办公场景也是存在的：

在豆包帮你办公的时候，它回应的永远是几分钟之前的甲方需求，做出的是过时的点击决策；

除非你拥有无限长的时间且工作界面永远静态，否则用豆包帮自己办公就纯自讨苦吃。

当然，使用这个截图方案本身没有问题，因为实时视频流输入肯定覆盖不了成本，也会触及隐私和合规的红线。说到底还是Seed 2.1太慢了。

测试六：建模大统领

最后，我通过MCP协议把Opus 4.8和Doubao-Seed-2.1-pro接入了Blender，要求建模出泡泡玛特风格的特朗普手办，精度越高越好。

生成的如下⬇️

左边是Opus 4.8做的，右边是Doubao-Seed-2.1-pro做的。说实话这个我判断不太出来，评论区家人们投票讲讲哪个更像吧。

我还让Doubao-Seed-2.1-pro生成了可供3D打印机使用的灰模版本，并让咸鱼给打印了出来⬇️

这去掉颜色之后，有点看不出是个人了。

而且据咸鱼所说，这模型里特朗普的MAGA帽上都是锯齿，两只脚也连在一起了，有种喝了核废水的美感。

没太看出来超出寻常的建模能力。你们谁想要这个在评论区抽了算了。

总的来说，Seed 2.1的更新不算完美，但基本是挤进了「办公」这个赛道。

字节内部AI业务是高度整合的，所以豆包App和Seed模型也不是一个纯èn套壳的关系。

比如Seed分析视频没那么强，所以在豆包App里，根本没有发送视频的按钮；

也比如豆包的用户喜欢和AI打视频电话聊天唱歌，所以Seed研究出了听起来拗口不好宣传的全双工技术Seeduplex，就为了让用户和豆姐唠嗑的时候不互相打断。

这在AI大战的前半场是一种降维打击。别人家不管怎么提高模型做GPQA Diamond、HumanEval的准确度，都没用，因为普通用户根本get不到那几点几分的差距。但豆包用起来舒服方便是实打实的。

豆包抢先把应用做好，直接占领用户心智了。

用户甚至会主动包容豆包的不足。抖音上铺天盖地的豆姐拟人，「我用最直白最直接最不绕弯子的话告诉你我绷住了」，还有什么只会认错的「豆包型人格」。

这些说到底，底层逻辑就是Seed模型不够强不够准确，但硬是被豆包用户当xp当萌点了。

字节也没管。我估计一半是没招了，一半是觉得现阶段危害性没那么大。

像现在AI大战进到下半场了，大伙都开始重新思考应用了。这次比的不是陪伴、搜索、点奶茶这种生活场景，而是纯提高生产力纯当工贼的工作场景——连腾讯都不用元宝拉群了，而是开始弄什么WorkBuddy了，你懂我意思吧。

这是一块尚未被豆包占领的高地，众生重新平等。

别管其他家做的实际咋样，普通用户真开始思考能不能用国产AI帮自己上班了，等他们发现Seed没法用来办公就心生疑惑了，你豆姐必须穿上西装假装白领光速应战了。

Seed这轮更新，基本上也就是给「办公」这个新主旋律铺路，2.1 pro新开发出的这些能力也都是以提高生产力为导向的，豆包里更是直接用「办公任务」四个字给2.1 pro定调。就差贴着用户耳朵说，用我省钱用我赚钱。

但真能吗？

毛病是很多的。比如当我直接用Trae接Doubao-Seed-2.1-pro做任务的时候，成品是不错的，但一个视频就要剪一天；

换成豆包任务模式的时候，活很快就做完了，但成品就不太能看。

在这跟我鱼和熊掌不可兼得呢。

只能说Seed质量和速度之间的内部矛盾还没解决，还有张力，离六边形战士还远。估计Seed团队自己也知道不够完美，只是被豆包专业版的上线时间给逼出来了。

所以我用下来的感觉是豆姐确实进职场了，但岗位是程序员鼓励师，主要提供情绪价值。

在豆包是个玩具的阶段，「已读乱回」「豆包型人格」「只提供情绪价值」这些事都无所谓，甚至给产品增添了人味。

但如果豆包想要真成为一个办公助手，这些萌点就全成了让用户望而却步的雷点。

最糟糕的情况就是，用户还在用豆包，只是不用它办公。然后没人充值，豆包嗷嗷烧钱但不进账，那岂不是天塌了。

豆包啊，以前听主人的话就好了，以后真得努努力完成主人的任务了。

不然Seed恐怕就要跟它帮我打的那局日麻一样，没法在桌上胡牌了😭

加油豆姐，我们相信你👍

葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.

提及实体 (12)

豆包 Seed 字节跳动 Trae 葬爱咸鱼 Claude GPT Gemini 腾讯 Blender WorkBuddy 元宝

关系 (15)

Claude对比Seed

作者在网页生成、视频剪辑、3D建模等多个任务中将Seed与Claude进行能力对比

GPT对比Seed

在开发世界杯足球游戏的测试中，Seed与GPT的生成效果被拿来直接对比

Gemini对比Seed

在开发世界杯足球游戏的测试中，Seed与Gemini的表现被拿来直接对比

Trae对比豆包

作者认为豆包的专业版在形态上看起来和Trae Work没有区别，疑似内部赛马

WorkBuddy对比元宝

在办公场景下，腾讯开始用WorkBuddy平替/取代元宝的生态定位

葬爱咸鱼批评Seed

测试人员咸鱼批评Seed的编程能力较差，并吐槽其生成的3D打印模型有“喝了核废水的美感”

字节跳动开发Seed

字节跳动发布并自研了Seed系列大模型

字节跳动开发Trae

Trae是明确归属于字节跳动旗下的AI编程产品

字节跳动开发豆包

字节跳动开发了豆包AI助手

腾讯开发WorkBuddy

腾讯面向工作场景开发推出了WorkBuddy

腾讯开发元宝

腾讯旗下开发运营了元宝AI工具

Blender集成Claude

作者通过MCP协议将Claude(Opus 4.8)接入Blender进行对比测试

Blender集成Seed

作者通过MCP协议将Doubao-Seed模型接入了Blender以进行3D建模

Seed集成Trae

作者在测试中将Doubao-Seed-2.1-pro模型接入了Trae中执行编程任务

Seed集成豆包

豆包App底层深度集成了Seed模型，且不仅是纯套壳，还配合研究了Seeduplex等全双工技术