百度蒸汽机2.0视频生成大模型已落地搜索、营销等场景

来源：光明网2025-10-16 16:56

　　8月21日，百度蒸汽机（MuseSteamer）音视频一体化模型完成重大升级，Turbo版、Lite版、Pro版，及有声版全面开放，在行业内首次实现多人有声音视频一体化生成。

　　50天后，百度蒸汽机视频生成大模型升级2.0版本，并且实现了多人有声音视频一体化，用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验，企业用户可在千帆平台享受高性能视频生成服务。

　　百度蒸汽机是全球首个中文音视频一体化生成的I2V模型，不仅支持环境音效，更支持多角色语音的一体化生成。百度蒸汽机2.0有声版模型让AIGC视频创作彻底告别了配音，创作者对完美视听语言的一切想象，只需要一张图和提示词。

　　这背后依托于百度蒸汽机视频模型的五大核心技术突破：行业首次实现多人有声音视频一体化生成，语音与唇形、表情、动作的毫秒级精准对齐，复杂场景下依然稳定；首创多模态潜在空间规划技术（Latent Multi-Modal Planner），自主协调多角色身份、情感与互动逻辑，保障电影级叙事连贯性；中文场景深度适配，以超98%的还原度精准呈现中文语音细节与情感表达；端到端电影级画质生成，通过精准主体动态刻画，打造真实细腻的人物表现力；大师级运镜控制，内置数十种专业镜头语言，精准响应文本指令，实现视觉细节与创意意图的完美对齐。

百度蒸汽机2.0视频生成大模型已落地搜索、营销等场景

　　百度蒸汽机2.0技术突破带来的不仅是质量提升，更是成本结构的根本性变革。比如，传统影视制作中昂贵的演员、场地、设备租赁费用，以及繁琐的后期配音、特效追加等环节，现在均可通过AI生成实现。

　　国际知名视效指导姚骐曾分享了用百度蒸汽机模型制作的科幻短片《归途》。“它让好莱坞级大片镜头不再需要百万预算。”姚骐表示。该作品共有40多个镜头，每个镜头生成3次，共用AI生成超120个片段素材，成本低至百元。

　　视频AIGC席卷生态全域，正在重塑创作者工作流。不同于业界的模型发展多由技术催生，百度蒸汽机的研发是由应用驱动模型研发的新范式。

　　来自百度各业务场景的、旺盛的应用需求，推动着百度蒸汽机模型快速发展，而模型技术的迭代，也在反哺着应用生态的创新，包括搜索生态、内容生态、商业生态以及云生态等。AIGC的涌现，大大打开了多模态内容创作的自由度，提高了视频生成质量和效率，并大幅降低了视频制作成本。目前，百度蒸汽机已在百度生态广泛使用。（记者李政葳）

[ 责编：曾震宇 ]

阅读剩余全文（）