作者 | Kyle Wiggers
策划 | 刘燕
译者 | 马可薇
谷歌新出的神奇 AI 系统可以根据一段文本生成任何类别的音乐,不过公司出于风险考量,目前并没有发布的计划。这款名为 MusicLM 的系统显然不是第一个在 AI 生成音乐领域吃螃蟹的,其他类似的系统有可视化 AI 作曲 Riffusion、舞蹈扩散、谷歌的 AudioML、OpenAI 的 Jukebox。但由于技术限制和有限的训练数据,至今都没能生成编曲复杂或高保真的音乐。但或许 MusicLM 能有所不同。
根据论文中的详尽描述,MusicLM 是使用了 28 万小时的音乐进行训练,才学会从“十分复杂”的描述中生成连续的歌曲。“复杂”的文本可以是“由萨克斯独奏和独唱组成的令人难忘的爵士乐”,或者“低音贝斯且强节奏性的 90 年代柏林电子乐”等等。值得关注的是,MusicLM 所生成的歌曲虽然不一定具有创造性或音乐的凝聚力,但听起来却很像是人类能创造出的。
考虑圈子里没什么艺术家或乐器演奏家,我不好大加赞扬这些生成的样本。但即使是在冗长且弯弯绕绕的描述中,MusicLM 也能捕捉其中演奏器乐、旋律或情绪间的细微差别。
MusicLM 的 AI 能力不仅限于音乐片段的生成。谷歌研究者称,该系统可根据已有哼唱、演唱、口哨、乐器等旋律进行制作,甚至能根据多个连续描述,如“该冥想了”、“该起床了”、“该跑步了”、“该全力付出了”,生成一段“故事性”的叙事旋律,长度可达数分钟,足以被用作电影配乐了。
不仅如此,MusicLM 也可以借助图片和文本的双重引导,生成由特定乐器“演奏”的特定音乐类型,甚至就连 AI “演奏者”的经验水平、启发创作的地点或时代都能指定,比如“健身时的鼓励音乐”。
人无完人,MusicLM 也不是完美的,甚至也有不少缺陷。训练中难免会出现部分样本音质扭曲,生成的人声合唱和声也有很大的改进空间,多数的“歌词”部分还能模糊认出是英语,剩下的就全是合成了好几个音乐人的、电子音极重的胡言乱语了。
即使如此,谷歌研究者仍认为 MusicLM 这类系统所带来的伦理挑战,其中就有将训练集中的音乐,无视版权保护添加至生成乐中这一情况。在实验中,研究者发现约 1% 的系统生成乐和训练中的原曲完全相同,这一高数值明显已经足以劝退谷歌发布当前阶段 MusicLM 的想法了。