谷歌的AI视频生成工具“Flow”进化了！能够生成声音的AI摄像机：Veo 3.1正在改变“演出、编辑、声音”的界限

2025年10月17日 01:08

10月15日（当地时间），Google宣布了最新的影像生成模型“Veo 3.1”以及搭载该模型的AI电影制作工具“Flow”的重大更新。在Flow中，可以进行如光线和阴影调整等“后期”编辑，并且多个功能可以生成原生音频。因此，从以往连接短视频生成剪辑的使用方式，进化为在演出和编辑之间往返的“影像制作体验”，这是此次更新的重点。The Verge

有什么新变化：Flow的编辑功能与Veo 3.1的关系

据The Verge报道，Flow可以在AI生成的视频中后期添加和调整“光与影”，以实现更自然的合成。虽然最终效果难以被识别为AI生成，但其高现实感也让人思考对信息环境的影响。此外，现有功能如“Ingredients to Video”（从多张参考图像构成场景）、“Frames to Video”（从开始/结束帧生成中间部分）、“Scene Extension/Extend”（从最后1秒延长至最多约1分钟的场景）等，均被赋予了生成音频的功能。The Verge

Veo 3.1本身在图像→视频的转换质量和提示词跟随性上有所改善，Google表示“质感”“纹理”“物理感”的表现得到了增强。在Flow中，可以通过“Insert（添加）”自然地插入对象，阴影和光线也会自动融合。相反，通过“Remove（移除）”功能去除不需要的元素也将在近期支持。blog.google

在哪里可以使用？长度是多少？

Google官方表示，除了将Veo 3.1整合到Flow中，还将在Gemini API（开发者）、Vertex AI（企业）和Gemini应用中提供。The Verge提到，Veo 3.1的价格与Veo 3相同，可作为Gemini API的“付费预览”使用。外部报道中提到，基于文本/图像生成4、6、8秒的剪辑是基本功能，通过Flow的场景延长功能可以实质性地扩展长度（有报道提到最长约148秒，但由于依赖于UI和API的限制，实际测量会因环境而异）。

“声音”成为主角：原生音频生成的意义

Veo 3代开始的音频生成在3.1中增强了语境适应性（台词、环境音、效果音）的丰富性。对于像市场素材或培训视频这样希望一站式制作影像和音频的用途，传统的“在其他DAW中进行音频处理”可能会减少。有报告强调了其在实际工作中的效果，许多人期待制作流程的简化。Venturebeat

创作者的初步评价：社交媒体的氛围

在发布后的社交媒体上，Google的Demis Hassabis先生将Veo 3.1宣传为“更丰富的声音和现实主义”。Google Flow官方也列举了“音频的充实”“编辑精度的提高”等。科技类账号发布了“Veo 3.1 Fast / Quality上线”“可在Gemini API的付费预览中使用”等快讯。这些主要是功能方面的评价，热度较高。X (formerly Twitter)

另一方面，Reddit上分享了大量实际使用的反馈。有积极的声音如“通过Scene Extension可以制作1分钟级的镜头”“将图像作为素材合成的‘Ingredients to Video’很有趣”，但也有批评如“车轮旋转的表现不自然”“Fast和Quality的信用消耗与输出不成比例”等。在与Sora 2等竞争对手的比较中，有人认为“Veo擅长人类表演和声音”，也有人指出“静止画的感觉仍然存在”，评价不一。在社区中可以观察到初期推出时的“波动”。Reddit

也有帖子讨论了模型的时间一致性和音频整合的评价。创业者展示了“在Veo 3.1之上叠加独特层的产品”，周边生态系统的动作也很快。news.ycombinator.com

对实际工作的效用：如何描绘最小化工作流程

生成质量稳步提高，但真正的价值在于“缩短工作流程”。

前期准备：①草图→②素材图像（角色、小道具、场所）→③决定音频方针（环境/效果/台词的有无）。
提示词：“Ingredients to Video”将素材捆绑，根据需要通过“Frames to Video”固定开始/结束。
编辑：通过色彩、曝光、阴影滑块进行调整，通过“Insert/Remove”整理画面，通过“Extend”连接镜头。通过这种往返，“演出→整音→再演出”的反复可以在短时间内完成，这是3.1的魅力所在。
blog.google

风险与准备：真实性增强的意义

The Verge指出，通过Flow的增强，“难以识别为AI生成”的影像变得容易。为了不助长匿名空间中的错误信息传播，团队需要明确信用和导出历史，设置水印或C2PA等输出管理。生成能力的提高同时也要求制作伦理的更新。The Verge

对市场的影响：与竞争对手的动态

TechCrunch和9to5Google将Veo 3.1与Flow的编辑增强结合起来看，评价其提示词跟随性和图像→视频的质量提升。Engadget也报道了“从图像生成视频的进步”。虽然与Sora 2、Runway Gen-3、Pika等的比较评价不一，但Google的“综合生产环境（Flow+Gemini+Vertex AI）”确实降低了分工的壁垒。在企业使用中，以“包括音频在内的一体化”为武器，培训、促销、游戏内演出等跨领域的使用有扩大的空间。TechCrunch　9to5Google

总结：Veo 3.1时代的“演出×编辑×音”

Veo 3.1与Flow的组合，提出了在同一场所进行**演出（生成）和编辑（整合）和音（故事的核心）**的AI影像制作的“新常态”。虽然热度和现场评价仍在波动，但从单一提示词到“素材设计→语境音→局部编辑”的深入，现在创作者的“个人触感”似乎回来了。接下来要看的是伦理、信用、著作的处理能在多大程度上通过运用来解决。这将是下一个关键点。The Verge

参考文章

Google的AI视频生成工具增强了更好的编辑和音频功能
来源: https://www.theverge.com/news/800371/google-veo-3-1-flow-audio