谷歌发布从文本生成音乐的AI作曲系统，但暂不计划发布

日期：2023-02-13 15:02 来源：互联网

作者 | Kyle Wiggers

策划 | 刘燕

译者 | 马可薇

谷歌新出的神奇 AI 系统可以根据一段文本生成任何类别的音乐，不过公司出于风险考量，目前并没有发布的计划。这款名为 MusicLM 的系统显然不是第一个在 AI 生成音乐领域吃螃蟹的，其他类似的系统有可视化 AI 作曲 Riffusion、舞蹈扩散、谷歌的 AudioML、OpenAI 的 Jukebox。但由于技术限制和有限的训练数据，至今都没能生成编曲复杂或高保真的音乐。但或许 MusicLM 能有所不同。

根据论文中的详尽描述，MusicLM 是使用了 28 万小时的音乐进行训练，才学会从“十分复杂”的描述中生成连续的歌曲。“复杂”的文本可以是“由萨克斯独奏和独唱组成的令人难忘的爵士乐”，或者“低音贝斯且强节奏性的 90 年代柏林电子乐”等等。值得关注的是，MusicLM 所生成的歌曲虽然不一定具有创造性或音乐的凝聚力，但听起来却很像是人类能创造出的。

考虑圈子里没什么艺术家或乐器演奏家，我不好大加赞扬这些生成的样本。但即使是在冗长且弯弯绕绕的描述中，MusicLM 也能捕捉其中演奏器乐、旋律或情绪间的细微差别。

MusicLM 的 AI 能力不仅限于音乐片段的生成。谷歌研究者称，该系统可根据已有哼唱、演唱、口哨、乐器等旋律进行制作，甚至能根据多个连续描述，如“该冥想了”、“该起床了”、“该跑步了”、“该全力付出了”，生成一段“故事性”的叙事旋律，长度可达数分钟，足以被用作电影配乐了。

不仅如此，MusicLM 也可以借助图片和文本的双重引导，生成由特定乐器“演奏”的特定音乐类型，甚至就连 AI “演奏者”的经验水平、启发创作的地点或时代都能指定，比如“健身时的鼓励音乐”。

人无完人，MusicLM 也不是完美的，甚至也有不少缺陷。训练中难免会出现部分样本音质扭曲，生成的人声合唱和声也有很大的改进空间，多数的“歌词”部分还能模糊认出是英语，剩下的就全是合成了好几个音乐人的、电子音极重的胡言乱语了。

即使如此，谷歌研究者仍认为 MusicLM 这类系统所带来的伦理挑战，其中就有将训练集中的音乐，无视版权保护添加至生成乐中这一情况。在实验中，研究者发现约 1% 的系统生成乐和训练中的原曲完全相同，这一高数值明显已经足以劝退谷歌发布当前阶段 MusicLM 的想法了。

（责任编辑：AK007）

谷歌发布从文本生成音乐的AI作曲系统，但暂不计划发布

相关推荐