用豆包办公得坐小孩那桌
用豆包办公得坐小孩那桌
2026年6月25日 骡子马 葬AI
最近字节开了大会,宣布Seed 2.1来了,又登顶了又质变了又革命了,又增加办公模式能完成主人的任务了。
我第一反应是不信啊。因为之前豆包给人的形象就是「好用但没那么耐用」,可以跟她聊天、陪她唱歌、问点弱智吧问题,但没见身边谁真敢用她干正经活的。
葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.
结果你豆姐这下宣布转行,不当陪玩当秘书了?
第一时间紧急测试了一下,看看到底咋回事。
结果一套测下来,API花了快200,豆包69元的标准专业版更是开了五个任务就把额度用完了,只能升级成了200元的进阶版。
以前只有测视频模型的时候有这么大开销,豆包你变了😭
而且这个豆包专业版怎么看起来和Trae Work没区别呢?到底主推哪个?还是也整上腾讯赛马这一套了。
测试一:世界杯足球游戏
首先是编程场景。我把Doubao-Seed-2.1-pro接入了字节旗下的Trae,原汤化原食。
最近Fable 5出来之后,X上好多AI博主都声称自己用Claude手搓出很多游戏。虽然现在Fable 5不给用了,但我觉得拿这个当测试不错。
于是我让Gemini 3.5 Flash、GPT-5.5和Doubao-Seed-2.1-pro分别给我做一个「包含中国队的世界杯游戏」。
然后GPT-5.5生成的是这样的⬇️
哎我,看着还真挺像个低配版FIFA游戏。不仅能加速、抢断、射门,还能换选手。
至于Gemini 3.5 Flash,生成的是这样的⬇️
这下直接两边都只剩下一个人了,而且除了射门别的啥也干不了。
最后,Doubao-Seed-2.1-pro给我的成品是这样的⬇️
有点惊喜,因为按照昨天咸鱼的测试,Seed的编程能力鉴定为拉完了,没想到竟然还是个游戏。
但缺点是后来那个足球直接飞天上粘空气墙上了,谁也碰不到球,只能平局了。
测试二:峰哥简历网页
当然做网页游戏是个炒作任务,让我们来看看真正的活能不能干。
所以我又让接入了Opus 4.8和Doubao-Seed-2.1-pro同时开启了一个「给博主@峰哥亡命天涯 做一个Apple官网风格的介绍网站,要求有3D效果和视差滚动效果」的任务。
Opus 4.8用了5分钟把网页做好了⬇️
Apple官网的配色和风格模仿得不错,视差滚动的效果也有。
但3D主要体现在卡片的倾斜,看不太出来,有点敷衍。
然后不知为何,同样的提示词,Doubao-Seed-2.0-pro用了足足20分钟。
看看成品:
虽然和Apple官网风格基本没啥关系了,但特效确实够酷炫啊。
Seed做网页有一种农村暴发户心态,就猛猛堆料啊。
最大的问题是,峰哥的照片、语录和作品都是瞎编的。按理说峰哥作为你们抖音平台大博主,搜不到他信息不应该吧。
也或许这不是苹果峰哥,这是安卓峰哥。
世界杯游戏和峰哥网页这两个任务有一个相同的缺点,就是耗时实在太太太太太长了,这俩任务花的时间基本是其他模型的四倍左右。
我都怀疑Seed是为了用户满意自己偷偷抽卡了,把任务重复了四次然后挑了个好看的发给我。
所以Doubao-Seed-2.1-pro有点像漂亮饭,拍个照片发朋友圈还行,但真当正餐吃就有点遭罪。毕竟哥几个用AI就是为了降本增效,你现在本也不低,效也不高,属于最美逆行者了。
测试三:朝鲜餐厅vlog剪辑
紧接着我又测了视觉理解场景。
前一阵我去了上海著名的朝鲜国营餐厅高丽馆吃饭,期间拍摄诸多视频素材,但一直没把它们剪成vlog。于是我就把它们导入电脑,让Opus 4.8和Doubao-Seed-2.1-pro分别对影像素材进行标注、整理和剪辑包装,然后把视频中将军的脸都打上马赛克。
先看看Opus 4.8最后剪辑出来的⬇️
配的字幕都太刻板印象集美集帅风了,不像人能说出来的话,不过确实基本上把将军的脸严严实实地挡住了。
再看看Doubao-Seed-2.1-pro,这一轮我使用了豆包专业版的「办公任务」功能。它先是把素材给我整理成如下表单⬇️
虽然看着很认真很详细,可惜很多内容都瞎编的。
比如因为朝鲜餐厅歌舞表演的时候严禁录像,所以根本就没有小姐姐能歌善舞的视频,豆包却声称我录制了数段,属于给我扣帽子不想让我好好活。
再比如我根本也没点他说的什么大同江啤酒、人参鸡汤,也没和朝鲜小姐姐合影,都是豆包的幻想。
其实之前大家用豆包很多时候都是图它情绪价值拉满,这没啥毛病。
但要是都选择「办公任务」了,还整情绪价值那一套就有点欺上瞒下了。
扯远了。我又让豆包把这些视频剪辑成一个vlog,并给将军的脸都打上马赛克。成品如下⬇️
比Opus 4.8强的地方是有的:配的旁白更有网感;由于Seed有自己的语音模型,所以有悦耳的画外音;还会自行根据画面内容,决定是放原声还是画外音,整个松弛有度。
但也有致命问题:我让豆包给将军的脸打马赛克,豆包研究半天,最后差点把马赛克打我脸上了。
*上边是Claude的,下边是豆包的
喷了啊。不是说多模态能力逆天吗,怎么就这?
之前老有字节审核员担心自己被AI取代,现在我宣布,你们不用杞人忧天了,因为Al连将军的脸都看不到。
之前还以为字节不把审核都裁光是人道主义精神,现在看来是模型能力还没到那个水准。
人类要感谢豆包。
测试四:伦理综艺影视解说
后来我又找了一集《辣妈庄园》,让豆包把它剪辑成适合抖音播放的影视解说短视频——这也是豆包高调宣布自己新进化出来的能力。
甚至有个宣传Case说一次性消化了两个多小时的长视频,产出了精准的解说视频。我来看看真实水平如何?
哦补充一下,《辣妈庄园》是一档知名恋爱综艺节目,主要剧情就是8个单亲妈妈和她们的8个儿子交叉谈恋爱。我觉得这种关系复杂的群像剧最能考验AI的理解能力。
经过多轮修整,Doubao-Seed-2.0-pro给我的成品如下⬇️
乍一看没啥问题,但解说和画面却是完全不搭配。
比如该放剧情镜头的时候,放的全是访谈画面,毫无视觉冲击力。
比如解说提到「八个儿子啥衣服也没穿」的时候,画面里大伙还都衣冠整齐呢。
不过细想感觉也还好,也许抖音用户看视频有时候也根本不在乎画面是啥,就纯听声。所以没准这个功能真能把影视解说小编给干失业了。
测试五:雀魂游戏代打
豆包的任务模式宣称可以控制网页和电脑,填表、买票这种小事我估计都不在话下,也不用测了。
所以我让它打开雀魂,帮我打一局日本麻将。
结果豆包打着打着,直接把自己给打得怀疑人生了。一会疑惑自己手里拿的到底啥牌,一会疑惑自己到底打的是啥牌,把麻将打成悬疑游戏了。
后来我看了眼回放,发现虽然豆包表面上跟我说的头头是道,搁那假装博弈,实则比赛过程中纯纯cos傻博弈,抓到啥牌打啥牌。
为啥会这样呢?总不能是故意骗我吧。
研究一番后发现,我以为豆包执行这个打麻将的任务,靠的是实时视频流输入来观测和控制网页。但实际上它跟之前豆包手机的方案一样,是在高强度高频次截图,然后通过分析图片的方式思考牌局。
这就带来两个问题:
1.比赛画面实时变动,你上一秒截图里的牌局下一秒都不存在了,在那分析一通纯对空气打拳;
2.如果分析得快也还行,但还是之前说的,Seed模型实在是太慢了,等它分析完这一回合,比赛都进行了10个回合了,对家都胡了。
这俩问题在真正的办公场景也是存在的:
在豆包帮你办公的时候,它回应的永远是几分钟之前的甲方需求,做出的是过时的点击决策;
除非你拥有无限长的时间且工作界面永远静态,否则用豆包帮自己办公就纯自讨苦吃。
当然,使用这个截图方案本身没有问题,因为实时视频流输入肯定覆盖不了成本,也会触及隐私和合规的红线。说到底还是Seed 2.1太慢了。
测试六:建模大统领
最后,我通过MCP协议把Opus 4.8和Doubao-Seed-2.1-pro接入了Blender,要求建模出泡泡玛特风格的特朗普手办,精度越高越好。
生成的如下⬇️
左边是Opus 4.8做的,右边是Doubao-Seed-2.1-pro做的。说实话这个我判断不太出来,评论区家人们投票讲讲哪个更像吧。
我还让Doubao-Seed-2.1-pro生成了可供3D打印机使用的灰模版本,并让咸鱼给打印了出来⬇️
这去掉颜色之后,有点看不出是个人了。
而且据咸鱼所说,这模型里特朗普的MAGA帽上都是锯齿,两只脚也连在一起了,有种喝了核废水的美感。
没太看出来超出寻常的建模能力。你们谁想要这个在评论区抽了算了。
总的来说,Seed 2.1的更新不算完美,但基本是挤进了「办公」这个赛道。
字节内部AI业务是高度整合的,所以豆包App和Seed模型也不是一个纯èn套壳的关系。
比如Seed分析视频没那么强,所以在豆包App里,根本没有发送视频的按钮;
也比如豆包的用户喜欢和AI打视频电话聊天唱歌,所以Seed研究出了听起来拗口不好宣传的全双工技术Seeduplex,就为了让用户和豆姐唠嗑的时候不互相打断。
这在AI大战的前半场是一种降维打击。别人家不管怎么提高模型做GPQA Diamond、HumanEval的准确度,都没用,因为普通用户根本get不到那几点几分的差距。但豆包用起来舒服方便是实打实的。
豆包抢先把应用做好,直接占领用户心智了。
用户甚至会主动包容豆包的不足。抖音上铺天盖地的豆姐拟人,「我用最直白最直接最不绕弯子的话告诉你我绷住了」,还有什么只会认错的「豆包型人格」。
这些说到底,底层逻辑就是Seed模型不够强不够准确,但硬是被豆包用户当xp当萌点了。
字节也没管。我估计一半是没招了,一半是觉得现阶段危害性没那么大。
像现在AI大战进到下半场了,大伙都开始重新思考应用了。这次比的不是陪伴、搜索、点奶茶这种生活场景,而是纯提高生产力纯当工贼的工作场景——连腾讯都不用元宝拉群了,而是开始弄什么WorkBuddy了,你懂我意思吧。
这是一块尚未被豆包占领的高地,众生重新平等。
别管其他家做的实际咋样,普通用户真开始思考能不能用国产AI帮自己上班了,等他们发现Seed没法用来办公就心生疑惑了,你豆姐必须穿上西装假装白领光速应战了。
Seed这轮更新,基本上也就是给「办公」这个新主旋律铺路,2.1 pro新开发出的这些能力也都是以提高生产力为导向的,豆包里更是直接用「办公任务」四个字给2.1 pro定调。就差贴着用户耳朵说,用我省钱用我赚钱。
但真能吗?
毛病是很多的。比如当我直接用Trae接Doubao-Seed-2.1-pro做任务的时候,成品是不错的,但一个视频就要剪一天;
换成豆包任务模式的时候,活很快就做完了,但成品就不太能看。
在这跟我鱼和熊掌不可兼得呢。
只能说Seed质量和速度之间的内部矛盾还没解决,还有张力,离六边形战士还远。估计Seed团队自己也知道不够完美,只是被豆包专业版的上线时间给逼出来了。
所以我用下来的感觉是豆姐确实进职场了,但岗位是程序员鼓励师,主要提供情绪价值。
在豆包是个玩具的阶段,「已读乱回」「豆包型人格」「只提供情绪价值」这些事都无所谓,甚至给产品增添了人味。
但如果豆包想要真成为一个办公助手,这些萌点就全成了让用户望而却步的雷点。
最糟糕的情况就是,用户还在用豆包,只是不用它办公。然后没人充值,豆包嗷嗷烧钱但不进账,那岂不是天塌了。
豆包啊,以前听主人的话就好了,以后真得努努力完成主人的任务了。
不然Seed恐怕就要跟它帮我打的那局日麻一样,没法在桌上胡牌了😭
加油豆姐,我们相信你👍
葬AI is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.