The Sound Shift: How Generative AI is Redefining the Music Industry's Business Model

作者

Gabrielle Chou

纽约大学副教授（上海）

作者

尼古拉斯-朗

Artefact 高级 GenAI 产品顾问

从工作室到流媒体：人工智能对音乐创作的影响及其市场冲击

2022 年 11 月，人工智能生成器与音乐家进行了首次有记录的现场表演，钢琴家大卫-多兰（吉尔德霍尔音乐与戏剧学院）与作曲家奥德-本-塔尔（金斯顿大学）设计的半自主人工智能系统进行了即兴对话。这场开创性的音乐会展示了人工智能作为音乐协作伙伴的创造可能性。从那时起，音乐家甚至非音乐家都开始接受人工智能生成技术，用人声、乐器甚至不存在的乐器发出的声音创作出完整的作品。这标志着人工智能正在重塑音乐创作和制作的新时代的开端. .随着 artificial intelligence 技术不断重塑各行各业，音乐界也在经历着自己的革命。从业余爱好者到大型唱片公司，整个行业的利益相关者都在努力应对这项技术的影响。.

音乐产业历来受技术进步的影响，如今正进入一个新的转型阶段。随着音乐产业在娱乐、媒体和拥有数百万首歌曲的流媒体平台上的广泛影响，人工智能的整合有望重新定义音乐的创作、生产和消费方式。.

生成式人工智能是这一重大转变背后的技术，它已从学术研究迅速发展到实际应用。Music Transformer 和 MusicLM 等模型正在突破可能的极限，将抽象概念转化为和谐的作品。这些人工智能系统经过大量 data 音乐作品集的训练，现在能以惊人的熟练度生成原创旋律、和声，甚至整首歌曲。.

然而，与任何技术革命一样，人工智能在音乐领域的兴起也带来了兴奋和焦虑。艺术家和业内专业人士对其潜在影响众说纷纭。一些人认为人工智能是促进创造力和民主化的有力工具，而另一些人则担心人工智能对人类艺术创作和工作保障的影响。.

音乐产业的格局已经在发生变化。流媒体平台正在利用人工智能制作个性化的播放列表，而制作软件也正在纳入人工智能辅助混音和母带制作工具。就连大型唱片公司也在探索人工智能在发掘人才和预测趋势方面的潜力。.

当我们进入这个新时代时，问题层出不穷。人工智能将如何重塑艺术家、制作人和工程师的角色？我们必须解决哪些法律和道德问题？也许最重要的是，这项技术将如何影响音乐家与他们的 audience 之间的情感联系？

在本文中，我们将探讨生成式人工智能在音乐领域的现状、在该行业不同领域的应用，以及它所预示的潜在未来。从这些人工智能模型背后的技术到将其推向市场所面临的实际挑战，我们将探讨这一创新是如何改变世界上最受喜爱、最具影响力的创意产业之一的。.

随着音乐产业进入人工智能驱动的时代，未来的作曲家显然可能不完全是人类，这标志着音乐产业在这一新领域的重大转变。.

1.音乐生成式人工智能背后的技术

从作曲到代码：生成式人工智能在音乐领域的突破

从传统作曲到人工智能生成音乐，这一过程堪称开创性。我们熟悉使用 chatGPT 生成文本，以及使用稳定扩散和 MidJourney 生成图像。音乐生成的主要突破在于将这些强大的模型适应音乐的特殊性 data。.

I.音乐 GPT（离散生成）

就像 GPT 模型处理语言一样，类似的原则也可应用于音乐元素。关键在于标记化--将音乐分解为离散的、可管理的单元。通过标记化将 GPT 模型应用于音乐的过程，是人工智能理解和生成音乐的关键一步。以下是更详细的解释：

1.音乐的标记化：正如 GPT 模型将文本分解为标记（单词或子单词）一样，音乐也需要分解为人工智能可以处理的离散单元。下面我们将探讨两种标记化方法：

乐谱：音乐的音符级表示

Music Sheet: A note-level representation of music

i.注释可视为包含多种信息的离散元素：
a) 音高：正在演奏的特定音符（如 C、D、E 等）
b) 持续时间：音符保持的时间（如四分音符、半音符）
c) 速度：音符弹奏的轻重缓急
d) 乐器：哪个乐器在演奏这个音符

ii.例如：一个四分音符演奏的 C4 音符可以用标记表示： ; ; ，而一个半拍演奏的 G3 音符可以用标记表示为 ; ； ;
(我们可以为速度、小节结构、乐器、流派......添加标记）。

iii.创建数字序列：
然后，这些笔记标记会被串联起来，并按序列排列，这与语言模型中单词组成句子的方式类似。每个标记都有一个唯一的数字 ID，使 GPT 模型能够接收与文本生成类似的输入。.

iv.示例：一个乐句是这样的[123；8；456；118；12；451；......] 其中每个数字代表一个特定的音乐事件。.

作为连续波的音乐（MusicLM）

Graph 2: The Sound Shift: How Generative AI is Redefining the Music Industry's Business Model

i.音频文件以波形格式存储在计算机中，表示信号随时间变化的幅度。这比简单的乐谱提供了更丰富的表现形式。.

ii.使用训练有素的模型（类似于用于单词向量的 BERT），将音频输入创建标记化版本，从而将该波段划分为代表 “音乐含义 ”的片段。.

iii.由此产生的矢量可以通过音频和文本的联合嵌入进行调节，从而创建同时代表音频特征和文本描述的标记，使用户能够在推理过程中使用文本提示作为输入。.

2.人工智能培训：

我们的两种标记化方法能让人感受到音乐的语法和词汇。这将使模型能够理解音乐的结构、和声、节奏和其他方面。.
然后，与 GPT 类似的人工智能模型可以处理这些数字序列，通过尝试重构一首歌曲来学习不同音乐元素之间的模式和关系，就像生成文本一样。.

3.生成：

在生成新歌曲时，人工智能会预测序列中下一个可能的标记，这与生成文本时预测句子中下一个单词的方式类似。.
然后，这些预测的标记可以转换回音乐符号或音频。.

由谷歌 Magenta 项目开发的音乐转换器（Music Transformer）是这一领域的一个重要里程碑。通过率先将 Transformer 的注意机制--语言模型的基石--应用于音乐序列，它在长篇创作中实现了出色的连贯性。随后，其他模型也纷纷效仿，每种模型都在音乐创作中突破了人工智能的极限。.

II.音乐的扩散模型（连续生成）

扩散模型，如 MidJourney 或 Stable Diffusion，已被广泛采用并用于图像生成。生成的图像越来越细腻，可定制程度也越来越高，在提示添加风格或分辨率细节的同时，还显示出很强的一致性。对于音乐生成来说，这种个性化也是一个有趣的功能。如何将音乐转化为图像？

音乐如画

Graph: The Sound Shift: How Generative AI is Redefining the Music Industry's Business Model

频谱图是声音或音乐作品中频率随时间变化的频谱的直观表示。它使用色标来表示某个频率在某个时间的振幅。它类似于带有彩色图案的二维图像。.
有了附加的文字描述，我们就有了用于训练扩散模型的相同图像和描述对。我们可以直接使用它们来生成以文字描述为条件的频谱图图片。生成的频谱图随后可以转换成音频。.
事实证明，图片扩散模型在生成过程中会重复使用现有的图片资产，从而带来所有权问题。这个问题对音乐至关重要，因此 MusicLDM（潜在扩散模型）的作者建议通过添加由其他人工智能模型生成的合成 data，使其训练音乐 data 集多样化，来解决这个问题。.

通过将频谱图视为图片并将其与文字说明对齐，就可以对音乐的生成进行强大的控制，使用户能够像使用 MidJourney 处理图片一样，提示自己想要的音乐。.

缩小从创新到产业的差距：人工智能音乐生成的挑战：
我们探索了利用人工智能生成音乐的两种不同方法。所有这些技术都带来了令人印象深刻的娱乐演示。然而，从实验室实验到上市产品的道路充满挑战。从确保各种音乐风格的质量一致性，到管理实时生成的计算需求，技术障碍比比皆是。市场挑战同样严峻，因为开发人员要努力为他们的人工智能作曲家找到合适的 audience 和使用案例。.
管理和法律方面的考虑因素则进一步增加了复杂性。在音乐与人工智能的交汇点建立和领导团队需要独特的技能。与此同时，伦理和法律方面的问题在很大程度上仍是未知数，引发了有关版权、作者身份以及人工智能时代创造力本质的问题。.
随着我们深入研究这场技术革命带来的当前应用和产品，我们可以清楚地看到，人工智能对音乐产业的影响将是深远的，它将触及从听众到大型唱片公司的每一个利益相关者。.

2.当前的应用和产品

随着人工智能生成技术的不断发展，音乐行业出现了各种各样的平台和工具。这些创新正在从实验概念走向实际应用，每种创新都提供了不同的功能和潜在用途。.

I.目前使用最多的Suno.AI

在人工智能音乐生成领域，Suno.AI 备受关注。该平台允许用户根据文字提示创作音乐，生成包括人声、配器和歌词在内的各种类型和风格的完整歌曲。.

Suno.AI 已拥有 1200 万用户，并成功完成了多轮融资，估值达到 $5 亿美元。该平台提供免费和付费两种版本，免费版本允许用户每天创建有限数量的歌曲。其应用范围从电影预告片模型到视频游戏配乐。.
在无法聘请作曲家的情况下，制作短片的制片人可能会使用 Suno.AI 来生成定制的配乐。广告公司正在探索利用该平台快速创建广告语和广告背景音乐，从而有可能改变广告音乐的工作流程。.

II.其他人工智能音乐平台

Suno.AI备受关注，但它只是日益壮大的人工智能音乐平台生态系统的一部分。.

Boomy AI： 该平台的重点是让用户能够创作人工智能生成的音乐并从中获利。用户可以将人工智能辅助创作的音乐上传到流媒体平台，从而获得潜在的版税收入。.
AIVA： AIVA被法国音乐版权协会（SACEM）认定为官方作曲家，标志着人工智能音乐创作迈出了法律化的一步。一些知名作曲家正在使用 AIVA 加快他们的工作流程，生成最初的主题，然后对其进行细化和配器。.
恩代尔 该平台采用不同的方法，为放松和集中注意力创建个性化的自适应音效。它能根据心率、时间和天气等因素生成定制的背景音乐。.
MuseNet 和谷歌的品红色项目 这些项目以研究为重点，探索机器生成作品的界限。这些项目正在研究有关创造力、风格和音乐智能的基本问题。.
安培音乐 可满足内容创作者对项目音乐的快速版权认证需求。它可以为各种媒体内容生成背景音轨，解决时间限制和版权问题。.

随着这些平台的发展和新平台的出现，人工智能在音乐领域的应用也不断多样化。从个人创作者到大型企业，潜在的应用范围十分广泛，这预示着未来人工智能在音乐创作和制作中将发挥越来越重要的作用。.

3.对不同利益攸关方的影响

随着生成式人工智能的不断发展，其影响波及音乐产业的方方面面。从听众到大型唱片公司，每个群体都在经历着与音乐创作和消费之间关系的转变。一些人对这些变化感到焦虑，而另一些人则认为这是一个一直受技术进步影响的行业的自然发展。.

I.听众

音乐消费者的音乐之旅一直是一个日益个性化和发现的过程。在人工智能出现之前，听众依靠电台 DJ、音乐杂志和口碑来发现新音乐。播放列表由人工精心策划，往往受到个人音乐库的限制。.

随着人工智能的出现，Spotify 等平台推出了以下功能 2015年7月《发现周刊, 该网站利用算法分析收听习惯并推荐新曲目。这标志着个性化音乐发现领域的重大飞跃，让听众接触到更多的艺术家和音乐类型。.

现在，有了人工智能生成技术，我们即将获得更加量身定制的体验。. 生命分数该系统不仅能推荐现有的音乐，还能根据听众的情绪、活动甚至生物特征 data 来创作新的音乐。慢跑者可以根据自己的步伐和心率实时生成定制的背景音乐，将自己喜欢的音乐风格融合到全新的音乐中。.

II.艺术家

对于音乐家来说，创作过程一直受到现有工具和技术的影响。在人工智能出现之前，作曲在很大程度上依赖于传统乐器和录音技术。20 世纪末，合成器和数字音频工作站（DAW）的引入已经开始重塑音乐创作的方式。. 让-米歇尔-雅尔指出, 早期电子音乐先驱：”技术总是决定风格，而不是相反。正是因为我们发明了小提琴，维瓦尔第才创作出了他所创作的音乐......对我来说，如果人工智能用得好，它不一定是一种危险”。.

作曲软件可以建议和弦行进或旋律，在创作过程中充当协作伙伴。.

通过人工智能生成技术，我们看到了人工智能共同创作的出现。艺术家现在可以输入基本旋律或歌词构思，让人工智能系统生成补充元素，从而激发新的创作方向。. 一些音乐家甚至在现场表演中尝试实时风格调整, 根据 audience 的反应，利用人工智能对声音进行快速变形。.

对于业余艺术家来说，多种培训应用程序正在充分利用人工智能，提供实时、互动和个性化的学习体验。有了其他能让你模拟编曲和乐队的工具，就能降低创作的学习成本，让更多人能够演奏和享受音乐。.

III.工程师

音频工程师的角色是不断适应新技术。传统上，混音和母带制作完全由人工完成，需要敏锐的耳朵和多年的经验。Spotify 的 Data 科学家 Marius Blanchard 在接受本文采访时提到：“人工智能不是来取代音乐家的，而是来增强他们的能力。它是一种工具，可以帮助艺术家探索新的创作领域，推动音乐创作的发展。”

人工智能已经在这一领域取得了进展，其工具包括 iZotope 的 Neutron 提供智能混音辅助。这些系统可以分析音轨并建议均衡器设置、压缩级别和其他参数，从而简化混音过程。.

随着人工智能生成技术的日益成熟，我们可能会看到全自动混音和母带处理系统，只需极少的人工干预就能处理整张专辑。然而，许多业内人士认为，要捕捉表演中的情感细微差别，人类的触觉永远是必要的。.

IV.音乐和平台公司

长期以来，唱片公司和音乐出版商一直依靠人的直觉和市场调研来发现流行趋势和发掘新人。A&R（艺术家和曲目）主管会在俱乐部和试听带中搜寻下一个大人物。.

人工智能的融入使这一过程转向 data-driven 决策。平台通过分析流媒体 data、社交媒体参与度和其他指标，来识别正在崛起的艺人并预测热门潜力。.

借助人工智能生成技术，音乐公司正在探索更激进的可能性。一些公司正在尝试使用人工智能系统，为特定细分市场或人口群体量身定制音乐。还有一些公司正在使用预测模型来预测哪些歌曲结构或抒情主题可能在未来几个月内引起 audience 的共鸣。.

在业界努力应对这些变化的同时，关键问题依然存在：人类创造力与人工智能辅助之间的平衡将如何演变？有些人担心音乐创作会失去人情味，而另一些人则认为人工智能是一种工具，最终将提高人类的创造力，为表达和合作开辟新的途径。.

4.未来愿景与机遇

随着人工智能不断重塑音乐产业，利益相关者正在努力应对法律、经济和道德方面的复杂局面。这一变革性技术有望实现音乐创作的民主化，同时对传统的艺术性和版权观念提出挑战。.

I.法律和市场因素

1.人工智能时代的版权

在人工智能出现之前，音乐版权法相对简单明了。作曲家和表演者对其原创作品拥有权利，并有明确的采样和合理使用指南。然而，人工智能生成音乐的出现大大模糊了这些界限。.

在美国，版权保护适用于原创作品，而欧洲的理论则强调创作者的个人风格。在考虑人工智能生成的音乐时，这一区别变得至关重要。美国版权局曾表示，它不会注册由机器或单纯的机械过程制作的作品，这些机器或机械过程是随机或自动运行的，没有人类作者的创造性输入或干预。.

2023 年，至少有一起备受瞩目的案件凸显了人工智能生成的音乐模仿流行歌手的版权问题。一首名为《Heart on My Sleeve》的歌曲利用人工智能模仿了德雷克（Drake）和《The Weeknd》的声音，上传到流媒体服务后被迅速删除。环球音乐公司向 YouTube 提出索赔，该曲目的视频被删除。. 这一事件引发了有关人格权和未经授权使用艺术家声音的问题, 这一行动为业界如何处理人工智能创作的、与现有艺术家作品非常相似的内容开创了先例。.

对艺术家来说，人工智能是一把双刃剑。一些人将这项技术视为合作工具，而另一些人则担心它会贬低他们的技艺。.

音乐公司也面临着一系列挑战。.

2.市场预测

音乐市场中的人工智能正蓄势待发。. 行业分析师预计这一十倍的增长反映了人工智能工具预计将在音乐制作、发行和消费的各个方面得到广泛应用。有趣的是, 艺术家们更加青睐人工智能工具在音乐制作和音乐母带制作方面（66%），而不是在人工智能音乐生成方面（47%）。与纯粹的人工智能生成工具相比，创造力赋能工具被认为更为重要，即使我们必须做好聆听越来越多人工智能生成的音乐精华的准备。.

II.潜在的转变

1.音乐制作民主化

人工智能正在降低音乐创作的门槛。过去需要昂贵的工作室和多年培训的工具，现在都可以通过用户友好的应用程序获得。这种民主化可能会带来新音乐风格和声音的爆发。.

作为一家音乐科技初创公司的创始人，Boomy 首席执行官亚历克斯-米切尔（Alex Mitchell）憧憬着一个人人都能成为作曲家的未来。“现在，我们看到世界各地的人们通过 Boomy 即时创作歌曲、发布歌曲，甚至赚取版税收入。这是第一次、, 一种全新的创作者和 audience” .这种可访问性可能会从根本上改变音乐的格局，有可能会发掘出一些本来可能不会被发现的人才。.

2.艺术家与观众之间的新互动

人工智能确实正在重塑艺术家与他们的 audience 联系方式。一些艺术家和音乐平台已经在尝试使用人工智能驱动的聊天机器人，让粉丝以新颖的方式与他们的音乐目录进行互动。例如，Spotify 在其应用程序中引入了一个人工智能驱动的聊天机器人，通过与用户互动来了解他们的音乐偏好、情绪和收听习惯。这样，聊天机器人就能根据每个用户的独特品味，策划定制播放列表并推荐新曲目。.

这些人工智能聊天机器人正通过提供个性化推荐、实时更新和互动体验来提高粉丝参与度。它们可以提供艺人的最新动态、推荐播放列表、方便购票、管理粉丝咨询，从而促进艺人和他们的 audience 之间建立更深层次的联系。.

一位具有前瞻性思维的艺术家霍莉-赫恩登（Holly Herndon）最近推出了人工智能版的声音，粉丝们可以与她合作创作个性化曲目。这种人类创造力与人工智能能力的融合预示着未来艺术家与 audience 之间的界限将变得越来越模糊。.

多方面的结论

I.人工智能在创造力中的作用

人工智能与音乐创作的结合引发了有关艺术性本质的深刻问题。有人认为，人工智能只是一种工具，类似于一种新的乐器，但也有人担心，它可能会削弱使音乐产生情感共鸣的人类元素。.

来自哥伦比亚大学、在音乐行业工作的 Data 科学家马里乌斯-布兰查德（Marius Blanchard）提出了一个平衡的观点：“我认为人工智能永远不会取代艺术家；[......]audience 与艺术家之间的联系存在于音乐之外的许多不同层面。相反，我希望人工智能将使高质量声音制作的获取途径民主化，并成为越来越多艺术家表达和分享其创作的创造力助推器。”

II.对行业就业的影响

随着人工智能能力的增长，音乐行业中的某些角色可能会发生演变或被淘汰。例如，音响工程师可能需要调整自己的技能，以便与人工智能混音和母带处理工具一起工作。不过，新的工作类别可能会出现，例如人工智能音乐程序员或创意产业的人工智能伦理顾问。.

III.真实性和情感联系

人工智能生成的音乐能否与人类创作的作品一样与听众建立情感联系，这或许是该行业面临的最重要问题。虽然人工智能可以分析模式并创作出技术精湛的作品，但人类体验中不可言喻的品质往往能为伟大的音乐作品增色不少，要复制这种品质仍是一项挑战。.

电子音乐家和人工智能研究员霍利-赫恩登提出了乐观的看法:她说：“我认为，艺术家们最好的出路是向机器学习的发展靠拢，”她建议艺术家们 “想办法有条件地邀请其他人与他们一起实验”。”

参考资料

Jeff Ens 和 Philippe Pasquier，（2020 年）。MMM：探索条件多轨模型
用变形器生成音乐。arXiv 预印本 arXiv:2008.06048 https://arxiv.org/abs/2008.06048

Andrea Agostinelli 等人，（2023 年）。MusicLM：从文本生成音乐。arXiv preprint arXiv:2301.11325 https://arxiv.org/abs/2301.11325

Huang et al, (2018)。音乐变压器：生成具有长期结构的音乐。arXiv preprint arXiv:1809.04281 https://arxiv.org/abs/1809.04281

Ke Chen et al, (2023).MusicLDM：使用节拍同步混合策略增强文本到音乐生成的新颖性。 https://arxiv.org/abs/1809.04281

联系我们

声音的转变：人工智能如何重新定义音乐产业的商业模式

作者