『Blog』AI 有望成为华语乐坛的下一任周杰伦

Preview

Google SeaNet 的 Andrea Agostinelli, Timo I. Denk 等人于 2023年1月26日发布了《MusicLM: Generating Music From Text》。在项目演示页中，我们可以看到 MusicLM 惊人的 prompt to music 能力，模型输入不再受限于传统的 TextPrompt，用户可以提供更加丰富的音乐元素让 AI 完成剩余的作曲任务。

Abstract

MusicLM 是一个从文本描述中生成高保真音乐的模型，例如：平静的小提琴旋律伴着扭曲的吉他旋律 。MusicLM 将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务，它生成的音乐频率为24kHz，并在几分钟内保持一致。实验表明，MusicLM 在音频质量和对文本描述的遵守方面都优于以前的系统。此外，MusicLM 可以以文本和旋律为条件，因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究，Google 公开发布了MusicCaps，这是一个由「5.5K 音乐-文本对」组成的数据集，其中有音乐家提供的丰富的文本描述。

Demonstration

Music to Music

首先，你可以提供 music 形式的输入，例如：哼唱的旋律录音，或是十几秒的吉他即兴演奏，模型会根据主旋律延拓剩余的部分完成 30s, 60s 甚至几分钟的具有叙事风格的完整曲目。

Text and Melody Conditioning

Long Generation

Story Mode

此外，该功能还能将视频创作中的背景音乐拓展成无限循环音乐（再也不用到 AU 中单独调了累），可以以某种流派的风格改编乐曲，在未来有可能演化成一个无情的扒谱机器人。

Image to Music

其次，你可以提供 image 形式的输入，可以是生活中抓拍的精彩瞬间，也可以是景区合影，甚至可以是一副抽象派作画。模型首先会「看图说话」概述图像内容并以文本的形式输出，即，image to text，而后模型便可输出一首特定主题风格的「可以描述此情此景的背景音乐」。

Painting Caption Conditioning

此外，可以指定 Title/Theme，也可以修改模型的概括内容然后重新生成音乐。

Text to Music

接下来是传统内容的横向突破，用户可以在「初始化后」以一种交互的形式不断地给 AI 提供需求，例如，加入爵士乐，合唱介入，弦乐四重奏等等。MusicLM 在 text 形式的输入中提供了更加丰富的关键词参数。你可以在 prompt 中指定音乐家，流派，地点，风格等等。

Audio Generation From Rich Captions

10s Audio Generation From Text

Generation Diversity

Conclusion

总得来说，这些特性是可以排列组合的，可以在一个完整的工程中一并使用，它们可以被用在时间轴上的各个位置，对于专业的作曲家来说，它可能仅是一个灵感来源工具，尚未达到直接参与乐曲创作的水平。

对华语乐坛流行音乐来说，在曲目形式以及和弦排列组几乎穷尽的大背景下，把 AI 作为灵感提供工具可能会不错的效果。但目前来看抖音神曲和 AI 完全创作的流行音乐我都欣赏不来，前者属于陈俗烂调，完全不想再听一遍，大都只能用副歌做个十几秒短视频的 BGM。而后者则是物理意义上的难听，音质太差，目前业界最先进的用户接口都有这个瓶颈，必须「人机结合」才能做到可用的程度。

最后，SeaNet 强调未来的工作可能会集中在歌词的生成上，同时改进文本调节和声乐质量；另一方面是对高级别歌曲结构的建模，如引子、诗句和合唱；而以更高的采样率对音乐进行建模是更高阶段的目标。