30秒内量产“类似音乐” ─ Gemini新功能对版权现实的挑战

30秒内量产“类似音乐” ─ Gemini新功能对版权现实的挑战

「想到的‘氛围’,直接转换为声音」。这样的体验终于接近成为聊天应用的标准功能。

Google在Gemini应用中整合了Google DeepMind的音乐生成模型“Lyria 3”,可以从文本和图像生成30秒的音乐轨道。其目标并非“自动制造名曲”,而是为日常消息和回忆添加背景音乐,提供轻松且易于分享的创作入口。


可以实现什么:30秒的“类似音乐的声音”即时生成

此次的重点有三个。
第一,作曲可以在Gemini的界面内完成。无需切换到其他应用,只需从工具菜单中调用音乐生成功能,输入提示词即可返回30秒的轨道。

第二,输入不限于“文字”。不仅可以通过文本指定“类型”、“情绪”、“节奏”等,还可以参考照片或视频来创作音乐。例如,可以提供一张徒步旅行中狗的照片,生成与其氛围相符的带歌词的歌曲。


第三,歌词和分享都包含在“一个包”中。Lyria 3可以自动生成歌词,无需用户准备,并为完成的歌曲附上分享用的封面艺术。Google将其定位为“轻松表达的有趣且独特的方法”。


提供条件为,面向18岁以上用户,并支持多种语言(包括日语)。首先在桌面端提供,然后逐步扩展到移动端。


“生成AI的特征”会消失吗?Lyria 3强调的“真实感”和“控制”

Google的说明中突出了可以制作“更真实、更复杂的音乐”的主张。除了歌词自动生成,还改进了对风格、声乐、节奏等元素的控制。也就是说,不再是简单的“随机生成”,而是更接近于用户的想象。


不过,目前有30秒的限制。在社交媒体上,有人认为“虽然短,但对于短视频或表情包用途已经足够”,“反而因为短,量产可能加速”。在短视频时代,音乐的价值往往在于“抓住人心的几十秒”。30秒的设计正是针对这一点。


扩展到YouTube Shorts:BGM的“预制”会成为常态吗

Google也将Lyria 3引入YouTube的Dream Track,支持短视频的音轨制作。如果短时AI音乐成为“视频编辑的最后一块拼图”,创作者的制作流程将发生变化。


此时起作用的是“生成的速度”和“语言障碍的降低”。根据视频的节奏尝试多种BGM本来是费时的,但如果只需在聊天中传达心情就能得到候选方案,即使不是在专业场合,尝试次数也会增加。在社交媒体上,从营销和试作的角度来看,“可以快速制作草案”的积极评价也在增加。


最容易引发争议的论点:版权和“学习数据是什么”

每当涉及AI音乐的话题,版权和学习数据总是随之浮现。Google明确表示“不是模仿现有艺术家,而是为了原创表达”,即使输入特定艺术家的名字,也会作为“氛围或情绪”来解释。此外,还提到了检查与现有内容相似性的过滤器和权利侵害的报告窗口。


另一方面,外部媒体和行业评论指出“学习来源的详细信息尚未披露”。围绕AI音乐的诉讼和对立一直存在,此次也可能因“透明度的高低”而影响接受度。


辨别“AI制作的声音”:SynthID和检测功能的意义

另一个重要点是,在生成音乐中嵌入识别信息的“SynthID”。在Gemini中制作的轨道会附上水印,并扩展Gemini端确认“该音频是否由Google的AI制作”的功能。继图像和视频之后,检测范围扩展到音频。


在社交媒体的反应中,这一点也引发了不同的评价。欢迎的一方认为“有标签就安心”,“至少可以抑制‘假装是人类创作’”。而持怀疑态度的一方则指出“水印是否能被规避”,“如果检测不成为通用标准,意义不大”。此外,由于“30秒量产”的性质,可能成为流媒体欺诈或内容欺诈的温床的担忧也根深蒂固。


社交媒体的反应:热情和拒绝感同时增长

此次话题的象征性在于,“看起来很有趣!”和“可怕”同时成为热门话题。


积极方面(娱乐、表达、节省时间)

  • “为日常事件添加BGM”的想法直观且易于成为表情包。作为实例,Google展示了“袜子的恋爱R&B”这样的搞笑题材也能成立。

  • 从市场营销和策划的角度来看,能够在短时间内制作出草案的优点被提及,作为“原型设计”而非“完全替代”的价值受到关注。


担忧方面(不正当使用、版权、标识)

  • 在Reddit的AI音乐社区中,虽然接受AI作为创作辅助,但“大量生产并假装是人类作品/欺诈性获利”的行为被视为问题。

  • 行业媒体对学习数据透明性不足表示担忧,仅仅提出“负责任的开发”难以令人信服。


最终,反应的分歧点集中在“这项功能是为谁而设”。如果是为了个人的娱乐或表达扩展,容易受到欢迎。然而,一旦涉及到在分发平台上的盈利或进入现有的音乐流通,权利、标识和不正当使用的对策就会迅速成为“社会问题”。


可能发生的事情:音乐从“制作物”转向“生成的氛围”?

Lyria 3的整合象征着音乐从“制作完成的东西”向“在需要时生成的东西”转变的趋势。短视频的BGM、演示的铃声、个人纪念日的配乐——这些“只在消费瞬间有价值的声音”与生成AI相得益彰。


另一方面,如果权利和透明性的讨论无法跟上,便利性将直接成为反对的燃料。Google在前面推出SynthID和检测功能,可能是因为意识到这一潜在问题。


30秒的“类似音乐的声音”可能成为微小的娱乐,也可能引发巨大的产业冲突。Gemini的新功能真正质疑的或许不是音乐的未来,而是“创作和流通的规则能在多大程度上被重新制定”。



出处URL