用AI做视频，这次真的可以长长长长长长

Wait 5 sec.

在人工智能领域，视频生成技术一直是研究的热点和难点。最近，百度推出的「蒸汽机」视频生成模型（MuseSteamer）再次升级，支持生成任意长度的AI视频，这一突破性进展引起了广泛关注。大家好，我是冷逸，今天给大家介绍一款很特别的视频生成模型。在AIGC圈出道不过4个月，但是非常有技术实力。昨天，他们再次升级，支持生成任意长度的AI视频。这个模型，正是由百度推出的「蒸汽机」视频生成模型（MuseSteamer）。怎么个长法？我们来实际体验一下。这里有一张图，一位靓仔来到了美利坚西部的某个小镇。我们把它作为参考图，输入提示词：1-5s镜头跟随，牛仔走向右方马车。6-10s人物向前走，镜头跟随。11-15s人物向前走，镜头跟随，右摇16-20s镜头跟随，牛仔推开门进去。这样，就得到了一支20s的长镜头视频，真正的一镜到底。过去，我们要生成这样一支视频，至少得做4次视频生成任务，至少要4张参考图。链路一长了，视频的一致性就会大打折扣。而这个视频，模型能理解“镜头跟随”、“向前走”、“镜头右摇”、“推门进去”等各种包含人物动作、运镜和交互的复杂指令，每次新画面衔接也都非常丝滑。在整个过程中，人物主体、服装、步态、背景和光影都保持了超强的一致性。再比如这几个case，也是一镜到底。提示词是：1-5s镜头跟随，人物快速向前走。6-10s镜头跟随，人物向前走向楼梯。11-15s人物向前走，镜头跟随，右摇16-20s人物向前走，镜头跟随，右摇，环绕到人物正面。即使Prompt里没有写明时间轴，模型也能自动根据剧情需要扩展内容，生成长视频。比如这2个case。Prompt：小纸船在小河里漂流。Prompt：小鸭子在水中嬉戏，有几只喝水，有几只划水，接下来排着队往前游，游到了岸边，拍打着翅膀，往前边的草地上走去。Prompt：云在山间流动，太阳的光芒闪耀，固定镜头。理论上，这玩意可以无限生成，你提示词描述画面有多长，它就能生成多长的视频。这完全打破了之前AI只能生成5s、10s短视频，或依赖首尾帧来控制续写时长的局限，给用户带来了“流式无限生成”的全新体验。这是怎么做到的？我了解了下，这是源于百度商业研发团队率先引入了自回归扩散模型，结合自回归的长序列能力和扩散一致性强的优势，使得「蒸汽机」模型能够准确生成符合世界物理规律且高一致性的长视频。它不同于可灵、即梦的首尾帧，更自由、更流程。比如这些case。Prompt：人物穿过阳光的光斑，一直往前走，手持镜头跟随。人物持续向前。Prompt：章鱼在水中游荡。在我印象中，百度这个「蒸汽机」模型应该是业内首个实现长视频生成的技术。在这张“AI视频生成模型技术发展路径图”里，他们最近真是卷疯了。5月17日，百度视频生成模型登上VBench-I2V图生视频榜全球第一。7月2日，百度发布视频生成模型“MuseSteamer”（蒸汽机）及创作平台“绘想”，首个实现中文音视频一体化生成。这个“音视频一体化”比很多热门模型都要早，算是国内第一个实现的。Prompt：女性穿着浅色衬衫，黑色齐肩短发侧身站在海滩边，面朝大海凝望远方，天空中多只海鸥展开翅膀在飞翔，海风吹拂。7月22日，百度蒸汽机模型正式上线手机网页版，支持移动端生成。8月21日，百度蒸汽机模型完成重大升级，在业内首次实现多人有声音视频一体化生成。9月25日，百度蒸汽机模型再次升级，支持AI长视频生成。从“一体生成”到“无限续写”，可以看出，百度蒸汽机的技术规划是极具前瞻性和体系化的，而非零散功能更新。自5月上线以来，月月有突破、持续领跑同行，百度蒸汽机正在成为“行业定义者”和“敏捷创新者”。在这些渠道可以体验：可在百度搜索、百度APP、手机浏览器百度搜索上搜：「百度蒸汽机」或应用平台「绘想」或直接访问这个网址：https://huixiang.baidu.com据透露，百度蒸汽机还将于10月中旬进一步升级，支持实时交互的长视频生成功能，包括可交互数字人、VR/AR视频内容以及动态游戏世界的生成能力。这就，更让人期待了。本文由人人都是产品经理作者【汪仔8440】，微信公众号：【沃垠AI】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。题图来自Unsplash，基于 CC0 协议。