从录音室到流媒体:人工智能对音乐创作的影响及其市场效应

2022年11月,首次有记录的将生成式人工智能与音乐家相结合的现场演出举行。当时,钢琴家大卫·多兰(伦敦市政厅音乐与戏剧学院)与作曲家奥德·本-塔尔(金斯顿大学)设计的半自主人工智能系统进行即兴对话。这场开创性的音乐会展示了人工智能作为音乐创作合作伙伴所蕴含的无限可能。 自那时起,音乐家乃至非音乐从业者纷纷拥抱生成式人工智能,创作出了包含人声、乐器演奏,甚至虚构乐器音色的完整乐曲。这标志着一个新时代的开端——人工智能正在重塑音乐的创作与制作。随着人工智能持续重塑各行各业,音乐界也正经历着一场革命。从业余爱好者到大型唱片公司,整个行业的利益相关者都在努力应对这项技术带来的影响。

音乐产业历来受技术进步的推动,如今正迈入一个新的转型阶段。鉴于音乐产业对娱乐、媒体以及拥有数百万首歌曲的流媒体平台产生的广泛影响,人工智能的融入有望重新定义音乐的创作、制作和消费方式。

生成式人工智能作为这场颠覆性变革背后的技术,已从学术研究迅速发展到实际应用。Music Transformer 和 MusicLM 等模型正在不断突破可能性的边界,将抽象的概念转化为和谐的乐曲。这些人工智能系统经过海量乐曲数据集的训练,如今能够以惊人的熟练程度生成原创的旋律、和声,甚至整首歌曲。

然而,与任何技术革命一样,人工智能在音乐领域的崛起既带来了兴奋,也引发了焦虑。艺术家和业界人士对其潜在影响意见不一。有人将其视为激发创造力、推动艺术普及的强大工具,也有人担忧它对人类艺术表现力和就业保障可能产生的影响。

音乐行业的格局正在发生变化。流媒体平台正利用人工智能生成个性化歌单,而制作软件则开始整合人工智能辅助的混音和母带处理工具。就连大型唱片公司也在探索人工智能在发掘人才和预测趋势方面的潜力。

随着我们步入这个新时代,种种疑问接踵而至。人工智能将如何重塑艺术家、制作人和工程师的角色?我们需要应对哪些法律和伦理问题?而或许最重要的是,这项技术将如何影响音乐家与听众之间的情感纽带?

在本文中,我们将探讨生成式人工智能在音乐领域的现状、其在音乐产业各环节的应用,以及它所预示的未来前景。从这些人工智能模型背后的技术,到将其推向市场的实际挑战,我们将深入分析这项创新技术如何有望重塑这一全球最受喜爱且最具影响力的创意产业之一。

随着音乐产业步入这个由人工智能驱动的时代,未来作曲家可能不再仅限于人类,这标志着该行业在开拓这一新领域时正经历一场重大变革。

1. 音乐生成式人工智能背后的技术

从创作到代码:生成式人工智能在音乐领域的突破

从传统作曲到人工智能生成音乐的历程堪称一场革命。我们已经熟悉了使用ChatGPT进行文本生成,以及使用Stable Diffusion和MidJourney进行图像生成。音乐生成领域的重大突破,在于将这些强大的模型适应于音乐数据的特殊性。

I. 音乐生成式预训练模型(离散生成)

正如GPT模型处理语言一样,类似的原则也可以应用于音乐元素。关键在于分词——将音乐分解为离散且易于处理的单元。通过分词将GPT模型应用于音乐的过程,是让人工智能理解和生成音乐的关键一步。以下是更详细的解释:

1. 音乐的分词:正如GPT模型将文本分解为词元(单词或词片段)一样,音乐也需要被分解为人工智能能够处理的离散单元。下面我们将探讨两种分词方法:

  • 乐谱:以音符为单位的音乐表现形式

乐谱:以音符为单位的音乐表现形式

i. 音符可视为包含多种信息的离散元素:
a) 音高:正在演奏的具体音符(例如 C、D、E 等)
b) 时值:音符的持续时间(例如 四分音符、二分音符)
c) 力度:音符的演奏强弱程度
d) 乐器:演奏该音符的乐器

ii. 示例:一个持续四分之一拍的C4音符可以用标记表示为:;;,而一个持续半拍的G3音符则可以标记为:;;
(我们还可以添加表示力度、小节结构、乐器、音乐流派等的标记)

iii. 数字序列生成:
随后,这些音符令牌序列会被拼接并排列成序列,类似于语言模型中单词构成句子的方式。每个令牌都会被分配一个唯一的数字ID,从而使GPT模型能够接收与文本生成时类似的输入。

iv. 示例:一个乐句的表示形式如下:[123; 8; 456; 118; 12; 451;…],其中每个数字代表一个特定的音乐事件。

  • 音乐作为连续波(MusicLM)

图2:声音变革:生成式人工智能如何重塑音乐行业的商业模式

i. 音频文件以WAV格式存储在计算机中,反映了信号随时间变化的振幅。这比简单的乐谱更能生动地呈现音乐。

ii. 可以通过一个经过训练的模型(类似于用于词向量的 BERT)将该音频波形划分为多个片段,这些片段代表“音乐的含义”,该模型会生成音频输入的分词版本。

iii. 生成的向量可以通过联合音频和文本嵌入进行条件化处理,从而生成既代表音频特征又包含文本描述的令牌,使用户能够在推理过程中使用文本提示作为输入。

2. 人工智能训练:

  • 我们提出的两种分词方法能够体现音乐的语法和词汇特征。这将使模型能够理解音乐的结构、和声、节奏及其他方面。

  • 该AI模型与GPT类似,能够处理这些数字序列,通过尝试重构一首歌曲来学习不同音乐元素之间的模式和关联,其运作方式与生成文本时完全相同。

3. 代:

  • 在生成新歌曲时,AI 会预测序列中下一个最可能出现的词元,这与它在文本生成中预测句子中下一个单词的方式类似。

  • 这些预测出的音符随后可以转换回乐谱或音频。

由谷歌Magenta项目开发的“Music Transformer”标志着该领域的一个重要里程碑。它率先将Transformer的注意力机制(语言模型的基石)应用于音乐序列,从而在长篇作品中实现了令人惊叹的连贯性。随后其他模型纷纷效仿,不断拓展人工智能在音乐创作领域的能力边界。

II. 音乐的扩散模型(连续生成)

像 MidJourney 或 Stable Diffusion 这样的扩散模型已被广泛采用并用于图像生成。生成的图像越来越精细且可定制,在提示词中添加风格或分辨率细节时,仍能保持极佳的一致性。这种个性化功能对于音乐生成同样具有吸引力。我们该如何将音乐转化为图像呢?

音乐如画:

图表:《声音的变革:生成式人工智能如何重塑音乐产业的商业模式》
  • 声谱图是声音或乐曲中频率随时间变化的频谱的视觉呈现。它采用色彩标度来表示特定时刻某一频率的振幅,类似于带有色彩图案的二维图像。

  • 通过添加文本描述,我们便获得了与训练扩散模型时相同的图像与描述配对。我们可以直接利用它们,根据文本描述生成频谱图图像。生成的频谱图随后可以转换回音频。

  • 研究表明,图片扩散模型在生成过程中会复用现有图像资源,从而引发了所有权问题。这一问题对音乐领域尤为关键,因此MusicLDM(潜在扩散模型)的作者们提出,通过添加由其他AI模型生成的合成数据来丰富其训练音乐数据集,以此解决这一问题。

通过将声谱图视为图片,并将其与文字描述进行匹配,我们可以对音乐生成过程进行强有力的控制,使用户能够像在 MidJourney 中处理图片那样,通过提示生成自己想要的音乐。

弥合创新与产业间的鸿沟:人工智能音乐生成面临的挑战:
我们探索了两种利用人工智能生成音乐的方法。这些技术都展示了令人印象深刻且富有娱乐性的演示。然而,从实验室实验到市场化产品的道路上布满了挑战。技术障碍层出不穷,从确保不同音乐风格下的质量一致性,到应对实时生成所需的计算需求。 市场挑战同样严峻,开发者们正努力为他们的AI作曲家寻找合适的受众和应用场景。
管理和法律方面的考量进一步增加了复杂性。在音乐与AI的交叉领域组建并领导团队,需要独特的综合能力。与此同时,伦理和法律领域仍处于未开发状态,这引发了关于AI时代版权、作者身份以及创造力本质的诸多疑问。
随着我们深入探讨这场技术革命所催生的当前应用与产品,可以明确的是,人工智能对音乐产业的影响将极为深远,从听众到大型唱片公司,每一个利益相关方都将受到波及。

2. 当前的应用与产品

随着生成式人工智能的持续发展,音乐行业涌现出了各种平台和工具。这些创新正从实验性概念走向实际应用,每一种都具备不同的功能和潜在用途。

一、目前使用最广泛的是:Suno.AI

在人工智能音乐生成领域,Suno.AI 备受瞩目。该平台允许用户通过文本提示创作音乐,能够生成包含人声、乐器伴奏和歌词的完整歌曲,涵盖多种流派和风格。

Suno.AI 表示其用户基数已达 1200 万,并成功完成了多轮融资,估值达到 5 亿美元。该平台提供免费和付费两种服务等级,免费版本允许用户每天创作数量有限的歌曲。其应用范围涵盖电影预告片配乐到电子游戏原声带。
正在制作短片的电影人若无法聘请作曲家,可能会使用 Suno.AI 生成定制配乐。广告公司也在探索该平台,以快速制作广告的广告曲和背景音乐,这可能会改变他们在广告音乐制作方面的工作流程。

二、其他人工智能音乐平台

尽管 Suno.AI 备受瞩目,但它只是日益壮大的 AI 音乐平台生态系统中的一员。

  • Boomy AI:该平台致力于帮助用户创作并变现由人工智能生成的音乐。用户可将借助人工智能创作的作品上传至流媒体平台,从而有机会获得版税收入。

  • AIVA:作为法国音乐版权协会SACEM认证的官方作曲家,AIVA标志着人工智能创作的音乐正逐步获得合法认可。一些资深作曲家正利用AIVA来加快创作流程,先由其生成初步主题,再进行润色和编曲。

  • Endel:该平台采用了一种不同的方法,通过创建个性化的、自适应的声景来帮助用户放松和集中注意力。它会生成定制的背景音乐,并根据心率、时间段和天气等因素进行动态调整。

  • MuseNet 和谷歌的 Magenta 项目是专注于研究的项目,致力于探索机器生成音乐作品的边界。这些项目正在探讨关于创造力、风格和音乐智能的基本问题。

  • Amper Music专为需要为项目快速获取已获版权许可音乐的内容创作者提供服务。该平台支持为各类媒体内容生成背景音乐,既能解决时间紧迫的问题,又能消除版权方面的顾虑。

随着这些平台的不断发展以及新平台的涌现,人工智能在音乐领域的应用正日益多元化。从个人创作者到大型企业,其潜在应用范围极为广泛,这预示着未来人工智能将在音乐创作和制作中发挥越来越重要的作用。

3. 对不同利益相关方的影响

随着生成式人工智能的不断发展,其影响正波及音乐产业的方方面面。从听众到大型唱片公司,各群体与音乐创作及消费之间的关系都在发生转变。虽然有些人对这些变化感到担忧,但另一些人则将其视为该行业的自然演进——毕竟,这个行业一直以来都受到技术进步的塑造。

一、听众

对于音乐消费者而言,他们的音乐之旅正日益呈现出个性化和探索的特征。在人工智能出现之前,听众主要依靠电台DJ、音乐杂志和口口相传来发现新音乐。播放列表都是经过精心手工编排的,且往往受限于个人音乐库。

随着人工智能的出现,Spotify等平台于2015年7月推出了“Discover Weekly”等功能,利用算法分析用户的收听习惯并推荐新曲目。这标志着个性化音乐发现领域取得重大飞跃,让听众接触到更广泛的艺术家和音乐流派。

如今,借助生成式人工智能,我们即将迎来更加个性化的体验。LifeScore是一个不仅能推荐现有音乐,还能根据听众的情绪、活动状态甚至生物特征数据创作新曲目的系统。例如,一名慢跑者可以实时获得专属的背景音乐,该音乐会根据其跑步节奏和心率进行调整,并将他喜爱的音乐风格融合成一种全新的听觉体验。

二、艺术家

对音乐家而言,创作过程一直受到现有工具和技术的影響。在人工智能出现之前,作曲主要依赖于传统乐器和录音技术。20世纪末,合成器和数字音频工作站(DAW)的问世,已经开始重塑音乐的创作方式。正如电子音乐先驱让-米歇尔·雅尔所言:“技术一直主导着风格,而非相反。 正是因为我们发明了小提琴,维瓦尔第才创作出了他的音乐……对我来说,如果使用得当,人工智能未必是种威胁。”

作曲软件可以推荐和弦进行或旋律,在创作过程中充当协作伙伴。

随着生成式人工智能的兴起,人工智能协同创作正逐渐崭露头角。艺术家现在只需输入一段基础旋律或歌词构思,人工智能系统便能生成相辅相成的元素,从而可能激发新的创作方向。一些音乐人甚至在现场演出中尝试实时风格调整,利用人工智能根据观众反应即时改变音乐风格。

对于业余音乐爱好者而言,许多训练应用正充分利用人工智能技术,提供实时、互动且个性化的学习体验。借助其他能够模拟乐队编排和演奏效果的工具,创作的学习门槛得以降低,让更多人能够演奏并享受音乐。

三、工程师

音频工程师的角色一直需要不断适应新技术。传统上,混音和母带处理完全是手工操作,需要敏锐的听觉和多年的经验。在接受本文采访时,Spotify的数据科学家马里乌斯·布兰查德提到:“人工智能并非为了取代音乐人,而是为了赋能他们。它是一种能够帮助艺术家探索新的创作领域、拓展音乐创作边界的工具。”

人工智能已在此领域崭露头角,例如iZotope的Neutron等工具便提供了智能混音辅助功能。这些系统能够分析音轨,并建议均衡器设置、压缩级别及其他参数,从而简化混音流程。

随着生成式人工智能日益成熟,我们可能会看到完全自动化的混音和母带处理系统,它们几乎无需人工干预即可处理整张专辑。然而,业内许多人认为,要捕捉表演中情感的细微差别,人类的触感始终是不可或缺的。

四、音乐与平台公司

唱片公司和音乐出版商长期以来一直依赖人的直觉和市场调研来把握趋势、发掘新人才。A&R(艺人与曲目)主管们会走遍各大俱乐部、翻听试听带,寻找下一个爆红之星。

人工智能的融入使这一流程转向了数据驱动的决策模式。各平台通过分析流式数据、社交媒体互动情况及其他指标,来发掘新晋艺人并预测其走红潜力。

借助生成式人工智能,音乐公司正在探索更加前卫的可能性。一些公司正在尝试开发能够针对特定市场细分领域或人群生成定制化音乐的人工智能系统;另一些公司则利用预测模型,预测未来数月内哪些歌曲结构或歌词主题可能引起听众共鸣。

随着业界努力应对这些变化,一个关键问题依然存在:人类创造力与人工智能辅助之间的平衡将如何演变?虽然有人担心音乐创作中会失去人文关怀,但也有人认为人工智能是一种工具,它最终将增强人类的创造力,为表达与合作开辟新的途径。

4. 未来展望与机遇

随着生成式人工智能持续重塑音乐产业,相关各方正面临着法律、经济和伦理等多重考量交织而成的复杂局面。这项变革性技术有望让音乐创作大众化,同时也对传统的艺术创作观念和版权观念提出了挑战。

一、法律与市场考量

1. 人工智能时代的版权

在人工智能出现之前,音乐领域的版权法相对简单明了。作曲家和表演者对其原创作品享有权利,且关于采样和合理使用的规定也十分明确。然而,人工智能生成音乐的出现,已使这些界限变得模糊不清。

在美国,版权保护适用于原创作品,而欧洲的版权理论则更强调创作者的个人风格。在探讨人工智能生成的音乐时,这一区别显得尤为关键。美国版权局曾明确表示,对于那些由机器或单纯的机械过程在没有人类作者的创造性投入或干预的情况下,通过随机或自动方式生成的作品,该局将不予注册。

2023年,至少一起备受瞩目的案件凸显了围绕人工智能生成的、模仿流行艺人声音的音乐所引发的版权问题。 一首名为《Heart on My Sleeve》的歌曲利用人工智能模仿了德雷克(Drake)和威肯(The Weeknd)的嗓音,上传至流媒体平台后随即被下架。环球音乐向YouTube提交了申诉,该歌曲的视频被移除。这一事件引发了关于人格权以及未经授权使用艺人声音的争议,即便这些声音是通过人工智能生成的。此举为业界今后如何处理与现有艺人作品高度相似的AI生成内容树立了先例。

对艺术家而言,人工智能是一把双刃剑。有些人将其视为一种协作工具而欣然接受,而另一些人则担心它会贬低自己手艺的价值。

音乐公司面临着自身的一系列挑战。

2. 市场预测

人工智能在音乐市场正迎来显著增长。行业分析师预测,该领域规模将从2023年的39亿美元增长至2033年的387亿美元。这一十倍的增长反映了人们预期人工智能工具将在音乐制作、发行和消费的各个方面得到广泛应用。 值得注意的是,艺术家们更倾向于在音乐制作和母带处理环节使用AI工具(66%),而非AI音乐生成(47%)。尽管我们必须做好准备,聆听越来越多的AI生成的音乐片段,但能够激发创造力的工具被认为比纯粹的AI生成工具更为重要。

二、潜在的转变

1. 音乐制作的普及化

人工智能正在降低音乐创作的门槛。过去需要昂贵的录音室和多年训练才能掌握的工具,如今通过用户友好的应用程序即可轻松获取。这种普及化趋势可能会引发新音乐风格和声音的爆发式增长。

音乐科技初创公司Boomy的创始人兼首席执行官亚历克斯·米切尔(Alex Mitchell)描绘了一幅这样的未来图景:任何人都能成为作曲家。“如今,我们看到世界各地的人们使用Boomy即时创作歌曲、发布作品,甚至还能获得版税分成。音乐表达首次向一种全新的创作者和受众群体敞开了大门。”这种普适性可能会从根本上改变音乐格局,并有望发掘那些原本可能被埋没的才华。

2. 艺术家与观众之间的新型互动

人工智能确实正在重塑艺术家与观众的互动方式。一些艺术家和音乐平台已经开始尝试使用人工智能驱动的聊天机器人,让粉丝能够以崭新的方式与他们的音乐作品集进行互动。例如,Spotify在其应用程序中推出了一款人工智能驱动的聊天机器人,该机器人通过与用户互动来了解他们的音乐偏好、情绪和收听习惯。这使得聊天机器人能够根据每位用户的独特品味,精心策划个性化歌单并推荐新曲目。

这些人工智能聊天机器人通过提供个性化推荐、实时更新和互动体验,有效提升了粉丝参与度。它们能够发布艺人动态、推荐歌单、协助购票以及处理粉丝咨询,从而加深了艺人与观众之间的联系。

前瞻性的艺术家霍莉·赫恩登(Holly Herndon)最近推出了一款基于人工智能的虚拟声音,粉丝们可以与之互动,共同创作个性化的歌曲。这种人类创造力与人工智能能力的融合,预示着未来艺术家与观众之间的界限将变得越来越模糊。

一个多方面的结论

一、人工智能在创造力中的作用

人工智能在音乐创作中的应用,引发了关于艺术本质的深刻思考。有人认为人工智能仅仅是一种工具,如同一种新型乐器;也有人担心它可能会削弱那种让人在音乐中产生情感共鸣的人性化元素。

来自哥伦比亚大学、目前在音乐行业工作的数据科学家马里乌斯·布兰查德(Marius Blanchard)提出了较为客观的观点:“我不认为人工智能会取代艺术家;[…] 观众与艺术家之间的联系不仅存在于音乐层面,更体现在许多其他层面。相反,我希望人工智能能让优质音频制作变得触手可及,并激发更多艺术家的创造力,帮助他们表达和分享自己的作品。”

二、对行业就业的影响

随着人工智能能力的提升,音乐产业中的某些岗位可能会发生变化或逐渐淘汰。例如,音响工程师可能需要调整自己的技能,以便与人工智能混音和母带处理工具协同工作。不过,新的职业类别很可能会应运而生,例如人工智能音乐编程师,或是面向创意产业的人工智能伦理顾问。

三、真实性与情感联结

或许该行业面临的最关键问题在于:人工智能生成的音乐能否像人类创作的作品那样,与听众建立同样的情感联结。尽管人工智能能够分析模式并创作出技术精湛的乐曲,但那些往往赋予伟大音乐以生命力的、难以言喻的人类体验特质,至今仍难以复制。

电子音乐人兼人工智能研究员霍莉·赫恩登对此持乐观态度:“我认为,艺术家们顺应机器学习的发展趋势是最好的出路,”她说,并建议他们“设法在一定条件下邀请他人与自己共同进行实验”。

参考文献

Jeff Ens 和 Philippe Pasquier,(2020)。MMM:利用 Transformer 探索条件多轨音乐生成(
) arXiv 预印本 arXiv:2008.06048https://arxiv.org/abs/2008.06048

Andrea Agostinelli 等(2023)。MusicLM:基于文本生成音乐。arXiv 预印本 arXiv:2301.11325https://arxiv.org/abs/2301.11325

Huang等人(2018)。《Music Transformer:生成具有长期结构的音乐》。arXiv预印本 arXiv:1809.04281https://arxiv.org/abs/1809.04281

Ke Chen 等(2023)。MusicLDM:利用节拍同步混合策略增强文本到音乐生成的创新性。arXiv 预印本 arXiv:2308.01546https://arxiv.org/abs/1809.04281