过去两个月,社交平台上突然被一段“动物跳水”视频刷屏——大象、小猪、柯基轮番从标准跳台上跃下,动作流畅、入水溅起的水花真实得像电影特效,还伴随着解说员的激情旁白与观众的热烈欢唿。
这种细节级别的拟真效果,放在两年前几乎是影视级团队才能完成的作品,如今却是 AI 一键生成。
而这类爆款视频,并不仅限于“动物跳水”。拟人化小动物演短剧、切割奇特材质的解压视频等,都在抖音、小红书、B站等平台快速流行,并催生了一群依靠 AI 视频创作变现的新职业——“数字导演”。
其实,AI 生成视频并不是新鲜事。早在 2022 年,市面上已有初代产品,但画面往往失真、人物怪异,观看体验差,传播范围有限。
真正的拐点出现在 2024 年 2 月——OpenAI 推出 Sora,以 DiT(Diffusion + Transformer) 架构为核心,解决了视频生成在时长、清晰度与逻辑一致性上的长期痛点,让 AI 视频第一次真正具备走向大众市场的条件。
紧接着,越来越多厂商开始跟进:2024 年 6 月,Runway Gen-3、Luma Dream Machine 接连发布;7 月底,快手“可灵”全量上线。到了下半年,这条赛道彻底进入“群雄逐鹿”模式——阿里、字节等巨头加速入场,MiniMax、智谱等创业公司迅速跟进。曾经被嘲为“AI幻觉集锦”的视频生成,如今成了最拥挤的商业化战场之一。
与已经相对稳定的大语言模型不同,AI 视频生成还处于早期格局未定的阶段。
目前行业尚无统一的评测标准,但“时序一致性”“帧画质”“提示词精准度”“生成稳定性”是普遍的关键指标。也正因为如此,各家在榜单上的名次波动很大,没有谁能长期垄断。
以 AGI-Eval 榜单为例,从 2024 年 4 月到 7 月,前十的阵容几乎全换,仅 Pika 1.5、MiniMax Video-01、爱诗科技 PixVerse V4 稳住了位置。
值得注意的是,国内厂商的入榜率明显高于海外选手。
此外,不同生成方式(文生视频 vs 图生视频)在测评维度上差异很大。Artificial Analysis 今年 7 月的数据表明,能同时进入两类榜单前十的模型不到一半,说明市场仍处于快速迭代期。
大厂与创业公司都在高速推新:快手可灵平均两个月一次大版本更新;MiniMax“海螺”三个月迭代三次,6 月直接推出新一代“海螺 02”。
从用户数据看,快手可灵、MiniMax 海螺在 POE 榜单长期位列前列,而字节“即梦”因发布时间较晚,数据尚在爬升。
AI 视频的快速崛起,本质上是 “天时地利人和” 的结果:
1、内容土壤肥沃
截至 2024 年 9 月,中国移动视频行业月活已达 11.36 亿(QuestMobile 数据),短视频和短剧已成为流量的核心载体。
2、成本断崖式下降
顶级动画电影的单位制作成本高达每分钟 200 万美元,而 AI 生成相似质量画面可降至 300 美元左右。虽然目前多数模型只能稳定生成几秒到几分钟的片段,但这与短视频的需求完美契合。
3、平台竞速策略
大部分视频生成厂商采取“先开源/低门槛免费—后订阅变现”的模式,例如快手可灵、字节即梦、腾讯混元通过赠送积分吸引 C 端创作者;百度绘想上线即免费试用;通义万相甚至直接开源到 GitHub。
平台型公司如字节、快手,天然拥有分发和流量优势,能构建“模型—创作—分发”的闭环,让 AI 功能无缝渗透到创作者生态中。
而缺乏流量入口的创业公司,则更多走 出海路线(PixVerse、MiniMax)或 B 端合作路线(Vidu 与飞书、百度、影视公司合作)。
从产品形态看,AI 视频生成已经出现了两条路线:
1、模板化批量生产:
典型如 PixVerse,通过 5 秒左右的特效模板,让用户无需复杂提示词即可快速出片,适合批量跑量。但弊端是内容生命周期短,一旦审美疲劳,热度消失得更快。
2、创意级生产工具:
如 Runway,更聚焦中高端创作场景,与影视、广告公司合作,提供中间帧控制、角色表情动作复刻、视频扩展等功能,核心创意依然由人类掌控。这种模式虽然不追求爆量,但更容易产出可沉淀的作品,并获得更高的单次变现能力。
我个人的判断是:
短期内,模板化会主导 C 端市场,因为创作者更看重上手速度和流量回报;而创意工具路线会在 B 端和专业内容制作中持续积累壁垒。
最终,可能会形成“双轨制”格局——C 端跑量、B 端走精品,而在中间层,谁能把两者的能力融合,谁就有机会定义下一代视频内容生产标准。
1、长时高质生成的技术突破:从秒级走向分钟级甚至小时级的稳定视频生成,将是决定行业天花板的关键。
2、版权与合规红线:模板化生成在商业化过程中势必遇到素材版权与人物肖像权的问题。
3、与其他 AI 模态的融合:视频生成与 AI 配音、AI 配乐、AI 剧本的整合,有机会诞生“一站式内容工厂”。
4、平台绑定 vs 独立分发:大厂生态封闭化,可能迫使独立工具寻求跨平台兼容与去平台化的生存空间。
总结一句:AI 视频生成现在的状态,很像 2018 年的短视频——还没到终局,但玩家已经开始布局长远生态。接下来的两年,很可能就是决定谁能成为“视频界的 ChatGPT”的关键窗口期。