在人工智能领域,视频生成技术一直是研究的热点和难点。最近,百度推出的「蒸汽机」视频生成模型(MuseSteamer)再次升级,支持生成任意长度的AI视频,这一突破性进展引起了广泛关注。大家好,我是冷逸,今天给大家介绍一款很特别的视频生成模型。在AIGC圈出道不过4个月,但是非常有技术实力。昨天,他们再次升级,支持生成任意长度的AI视频。这个模型,正是由百度推出的「蒸汽机」视频生成模型(MuseSteamer)。怎么个长法?我们来实际体验一下。这里有一张图,一位靓仔来到了美利坚西部的某个小镇。我们把它作为参考图,输入提示词:1-5s镜头跟随,牛仔走向右方马车。6-10s人物向前走,镜头跟随。11-15s人物向前走,镜头跟随,右摇16-20s镜头跟随,牛仔推开门进去。这样,就得到了一支20s的长镜头视频,真正的一镜到底。过去,我们要生成这样一支视频,至少得做4次视频生成任务,至少要4张参考图。链路一长了,视频的一致性就会大打折扣。而这个视频,模型能理解“镜头跟随”、“向前走”、“镜头右摇”、“推门进去”等各种包含人物动作、运镜和交互的复杂指令,每次新画面衔接也都非常丝滑。在整个过程中,人物主体、服装、步态、背景和光影都保持了超强的一致性。再比如这几个case,也是一镜到底。提示词是:1-5s镜头跟随,人物快速向前走。6-10s镜头跟随,人物向前走向楼梯。11-15s人物向前走,镜头跟随,右摇16-20s人物向前走,镜头跟随,右摇,环绕到人物正面。即使Prompt里没有写明时间轴,模型也能自动根据剧情需要扩展内容,生成长视频。比如这2个case。Prompt:小纸船在小河里漂流。Prompt:小鸭子在水中嬉戏,有几只喝水,有几只划水,接下来排着队往前游,游到了岸边,拍打着翅膀,往前边的草地上走去。Prompt:云在山间流动,太阳的光芒闪耀,固定镜头。理论上,这玩意可以无限生成,你提示词描述画面有多长,它就能生成多长的视频。这完全打破了之前AI只能生成5s、10s短视频,或依赖首尾帧来控制续写时长的局限,给用户带来了“流式无限生成”的全新体验。这是怎么做到的?我了解了下,这是源于百度商业研发团队率先引入了自回归扩散模型,结合自回归的长序列能力和扩散一致性强的优势,使得「蒸汽机」模型能够准确生成符合世界物理规律且高一致性的长视频。它不同于可灵、即梦的首尾帧,更自由、更流程。比如这些case。Prompt:人物穿过阳光的光斑,一直往前走,手持镜头跟随。人物持续向前。Prompt:章鱼在水中游荡。在我印象中,百度这个「蒸汽机」模型应该是业内首个实现长视频生成的技术。在这张“AI视频生成模型技术发展路径图”里,他们最近真是卷疯了。5月17日,百度视频生成模型登上VBench-I2V图生视频榜全球第一。7月2日,百度发布视频生成模型“MuseSteamer”(蒸汽机)及创作平台“绘想”,首个实现中文音视频一体化生成。这个“音视频一体化”比很多热门模型都要早,算是国内第一个实现的。Prompt:女性穿着浅色衬衫,黑色齐肩短发侧身站在海滩边,面朝大海凝望远方,天空中多只海鸥展开翅膀在飞翔,海风吹拂。7月22日,百度蒸汽机模型正式上线手机网页版,支持移动端生成。8月21日,百度蒸汽机模型完成重大升级,在业内首次实现多人有声音视频一体化生成。9月25日,百度蒸汽机模型再次升级,支持AI长视频生成。从“一体生成”到“无限续写”,可以看出,百度蒸汽机的技术规划是极具前瞻性和体系化的,而非零散功能更新。自5月上线以来,月月有突破、持续领跑同行,百度蒸汽机正在成为“行业定义者”和“敏捷创新者”。在这些渠道可以体验:可在百度搜索、百度APP、手机浏览器百度搜索上搜:「百度蒸汽机」或应用平台「绘想」或直接访问这个网址:https://huixiang.baidu.com据透露,百度蒸汽机还将于10月中旬进一步升级,支持实时交互的长视频生成功能,包括可交互数字人、VR/AR视频内容以及动态游戏世界的生成能力。这就,更让人期待了。本文由人人都是产品经理作者【汪仔8440】,微信公众号:【沃垠AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。题图来自Unsplash,基于 CC0 协议。