Flova和TapNow背对背拥抱

2026-04-07|骡子马|13 个实体|18 条关系

最近Seedance 2.0接入大赛开始了,有头有脸的视频agent都当上字节中介原地起飞了。

OiiOii也不求Sora2 API了,Libtv狂投一波庆祝自己接入Seedance2.0了,连低调Flova都忍不住出来炒作,暗示剪映技术负责人王学智和产品负责人张逍然已经去Flova了。

早知今日何必离开字节呢?我建议即梦直接按照闹闹、陈冕、郭列在字节的级别给他们分一下额度。

我也又回去用了下之前盛赞过的Flova,毕竟之前说它怀了个剪映宝宝雏形,现在得检查一下是否破肚而出了。

结果他们很幽默,非得声称自己接入了一个能全能参考、能动作模仿、能时长翻倍的怎么看着都是Seedance 2.0的视频模型,但不知道是保密需求还是怎么的,硬是给它起名叫StarDawn 2.0。给我看一愣一愣,以为这公司掌握核心蒸馏技术了。

于是我先试着做了一个喜鹊谋杀案片头式的朝鲜宣传片,准备在我们本月朝鲜之旅的时候献给将军。

集成了Seedance 2.0参考功能的Flova确实是把「不用写提示词」这一核心卖点给发扬光大了,我只需要把刷到的视频和一句话灵感发给它,就开始自动分析风格了。

而且在具体的影片策划上,之前还需要打字,现在直接给了几轮二选一,实现像打旮旯game一样做ai。

出现哪些地标、两个镜头之间如何丝滑转场,也基本都是它独立思考出来的。我只做一些微小的工作。

最后生成视频如下,虽然不知道末尾的朝鲜话是啥意思,但感觉挺对味的。


动画的试完了,试试真人效果。我结合最近铺天盖地的把同事压缩成skills的热点,做了一个不到十秒的恐怖小短片。

蒽其实不算特别恐怖,但基本也能看明白核心剧情和预设的恐怖点在哪。也算是个成品。

但当我让Flova做一个30秒的中长视频的时候,就有点翻车了。

我设想的剧情比较简单:全程第一人称视角,主角给同事拍离职vlog,跟着同事走出公司大门之后发现,这人直接被扔到一个蒸馏工厂里被邪恶的资本家给回收成skills二次利用了。有点像《约定的梦幻岛》的剧情。

但用Flova做的时候,就发现它有三个严重的问题。

第一,空间位置关系只为单个镜头服务,没有一个整体的规划。

比如主角把头伸地板里看,下一秒看到的居然是个天花板,成颠倒世界了。

也可以理解,毕竟在Flova的工作流里,它只是给故事所需的场景生成了几张孤立的平面图,又不是做了个赛博片场的3D建模。

第二,在生成视频的时候,没能把剧情基础设定作为画面提示词的一部分进行考虑。

比如我说这主角偷偷摸摸进到工厂里拿手机偷拍,结果很多镜头要么是第三人称央视纪录片视角,要么怼着人形机器人的脸拍。给人一种主角莅临工厂亲自视察的意思。

第三,多个镜头组之间常常硬连尬连,最终成片有素材堆积感。

比如我跟Flova说,视频里要有同事被抓获、同事被压缩成SKILL、同事.skill被安装到公司电脑这三件事。

它就确实把事件A、事件B、事件C的镜头都给我生成得明明白白的。

但从主角看到事件A到看到事件B之间的过渡,转个头或者走个路,或者对着屏幕说「让我们去那边看看」,这就都不存在。都得自己手动添加。

好在这三个问题在短平快的片子制作流程中体现并不明显,所以我在做朝鲜宣传片和惊悚小视频的时候也没怎么难受。

估计Flova也意识到这些问题了,因为他们最近举办的活动基本上就是鼓励大家多做一句话生成的短视频。