CrePal成为首个胖猫视频Agent

2025-07-25|葬爱咸鱼|13 个实体|22 条关系

CrePal成为首个胖猫视频Agent

「还会地域黑,册那」

2025年7月25日 葬爱咸鱼 葬AI


在MiniMax的胖猫宇宙一文中,我首次建设性地提出:

「MinMax应该研发胖猫Agent,早日完成胖猫视频工作流闭环,让胖猫博主实现麦当劳自由。」

没想到一个月后,一个东北小伙@jiaming,就率先开发出了全球首个胖猫视频Agent——CrePal。

CrePal主打卖点是一站式搞定AI视频制作。

它有一个主Agent来做任务调度,下边有脚本策划、图片生成、视频生成、视频剪辑这四个子Agent。子Agent里边集成了主要的图片、音频和视频生成模型,包括Midjourney、GPT-Image、Google Imagen、Suno、海螺、可灵、即梦、Pixverse、Veo 3。

(文章最后,@jiaming挨个锐评了这些模型的优劣)我打开CrePal网站的的第一反应是,这不就是我设想中的胖猫Agent?

这是我拿CrePal生成的胖猫视频。

配乐整挺文艺,动画比胖猫博主有创意,整出一种三毛流浪记的感觉了。

苏北青年胖猫好不容易攒钱来上海旅游,外滩熙熙攘攘,胖猫饥肠辘辘。胖猫没去过星巴克,更买不起意大利手工冰淇淋,好不容易看到一家熟悉的蜜雪冰城,依靠外滩栏杆,眺望陆家嘴繁华景色,喝一口大杯全糖少冰只要9块钱的三拼霸霸奶茶,还没来得及发出一声满足的叹息。

东方明珠塔直接红温、蓄力,一圈圈蓄能光环接连升起,一道带着正统巨富长chill之力的红宝石激光精准射爆胖猫手中的奶茶杯,可怜的胖猫啊,直接被冲击波打到飞起,一直飞到大气层仰望银河系😭

上述是我脑补的,实际上我只给CrePal输入了一段话,同时附上了MiniMax官方制作的胖猫视频 https://v.douyin.com/aFi7mOJgJHw/ 。

虽然我对这条胖猫视频很满意,但是有一说一。CrePal刚发布十几天,工程能力还不太稳定。这条视频没有一次性成功,是开发者手动发给我的(@jiamingjiaming对胖猫这个创意很满意,他自己又生成了几条胖猫视频。其中一条,胖猫甚至会自己说「册那」。

册那,CrePal怎么会说上海话的?居然是饱受地域黑的东北老乡造出了全球首个自己学会地域黑的视频Agent😭

这一周里,我拿CrePal进行了11次任务,其中9次任务都一次性成功生成了视频。

两次失败的任务,一个是胖猫喝奶茶这个,另一个是我输入了一条实拍视频,想要调整一下人物肤色。但CrePal只支持生成内容,并不考虑修改实拍视频。

jiaming解释CrePal的定位是,让普通用户也能轻松创作出高质量的 AI 视频。他的目标用户非常明确,就是想做AI视频的自媒体。比如说胖猫博主、拿Veo 3做ASMR视频的博主。

你简要描述自己的想法,CrePal会据此写脚本,然后根据脚本画分镜图,再用分镜图生成视频片段,同时生成配音配乐,最后将素材剪辑成片。

用户不需要再切换几个模型平台,学习若干prompt写法。Agent就可以解决流程调度问题。

这确实满足了我想做胖猫博主的梦想。我拿CrePal做了7条胖猫视频。

最近AI视频届最火的梗,无过于秦始皇骑北极熊。我守正出奇,大力创新,直接让秦始皇骑胖猫。

这个「画离弦」BGM是我自己上传给CrePal的MP3文件。

CrePal的配音、配乐能力比较初级,可以根据你输入视频的音色合成配音,但这个定制配音只能朗读,不能唱歌。CrePal只能拿Suno生成配乐,或者使用你自己上传的配乐。

比如,我想要让胖猫使用上传的音乐旋律唱歌,歌词是「胖猫骑着秦始皇,秦始皇也要骑胖猫」。但这做不到,CrePal只能重新生成一段BGM,然后让胖猫用阴阳怪气的童声朗读歌词。

我还碰到了一次人物不一致。生成东北雨姐骑胖猫的视频,我上传了雨姐照片要求参考形象,但CrePal生成的雨姐长得完全不像,而且两个视频片段的雨姐形象不一致。

为了解决人物一致性问题,CrePal用了先统一生成人物形象,再将人物形象作为首帧图来生成视频片段的办法。但依然偶尔会出错。

虽然有一些小问题,但CrePal已经完成了我的胖猫博主梦想。

CrePal生成的胖猫视频,创意和画面丰富程度都远超专业胖猫博主。全球首个胖猫视频Agent,CrePal当之无愧👍

一些小问题也很好解决。比如CrePal无法跟着旋律唱歌词。MiniMax的海螺AI就能干这个事啊,胖猫博主都是拿海螺AI生成的「秦始皇骑北极熊」歌曲。

我郑重建议MiniMax,尽快与CrePal合作,用海螺AI的语音生成能力联手CrePal的视频制作调度能力,共同赋能全球首个胖猫视频Agent。

当然,CrePal也能做正经视频。

我指定它调用Veo 3,生成胖猫切汉堡的ASMR视频,一次性生成的质量还可以。虽然切汉堡后的画面不符合物理规律,但这是模型的问题,只能多生成几次抽卡来解决。

这一周测试下来,我拿CrePal生成了10条视频。

我的第一感觉是视频生成太贵了。CrePal注册送500积分,我充了19美元的月费会员,有2000积分,jiaming又送了我3000积分。10条短视频下来,基本用完了。

CrePal生成一条视频的成本大概是2-3美元,我问jiaming会员定价19美元能不能挣钱。

东北老乡很坦诚,说上线不到一个月,还算不出来能不能挣钱。(反观上线十几天就敢算ARR的🤓)最后,我让jiaming挨个锐评了主要的图片、视频生成模型,给大伙贡献一点创业试出来的know how。

Midjourney:在写实细节的把控力上非常好,特别适合做写实类人像或梦核类的图片,而且人脸保持性也做得比较好,比如想做个刘亦菲的图,它就能把脸比较还原地保持下来。

GPT-Image:目前最好的可以基于多图参考来做图的模型,所以它可以很好地把人物形象和场景融合到一起,并且保持好两者的一致性。

Google Imagen:性价比高,做一些场景图的效果还不错。

Veo 3:很强,强于其他所有模型。在预算充足的情况下,建议所有人都直接用 Veo 3 搞,但它也确实比较贵,谷歌官方定价8秒钟就要6美金。

海螺:特点很明显,做运动类的镜头比较符合物理规律。比如做人物跑步、打架的素材,它的稳定性比较强。(咸鱼补充,海螺是胖猫视频开创者👍)可灵:中规中矩,没有特别强的专长,什么都挺好,稳定性好,瑕疵率也比较低。价格不算贵,也能用得起。如果希望稳定出货,不想来回调,那就选可灵,基本能一次成。

即梦:最大的亮点就是便宜和快。除了便宜,它对风格化内容的理解和保持也做得比较好,能让水墨风的图动态地动起来。但它的问题也比较明显,就是容易出物理性的 bug,比如跑着步就飞天上去了。

Pixverse:可灵 2.1 平替。