S5 Vol.03 DeepMusic刘晓光amp;苑盛成：释放你灵魂中的莫扎特

大家平时吃喝玩乐发抖音，是不是都需要找一些符合视频内容的背景音乐呢？视频有了音乐的加持，内容才能变得更有趣。其实相比于传统的复杂漫长的视频剪辑流程，AI可以通过各种各样的手段，去控制一段音乐与视频匹配，这样就能让你的创作过程更容易更高效。

本期创业内幕的主角DeepMusic，是一家非常酷的AI音乐公司。他们主攻音乐的AIGC方向，就是通过AI降低音乐的门槛，让更多人可以参与到音乐的学习、练习、创作和娱乐中，“让每一个人都成为音乐家”。AI音乐数据化领域，还远没有到所谓白热化竞争阶段，所以非常值得大家了解一下。

与传统的音乐创作相比，DeepMusic的创作功能有怎样的变化和升级？AI音乐数据化领域目前紧缺哪类人才？又有着怎样的前景和未来？

今天的《创业内幕》，我们邀请到两位嘉宾—— DeepMusic灵动音科技的创始人兼CEO刘晓光以及DeepMusic灵动音科技的联合创始人&CTO苑盛成，他们将和GGV纪源资本的执行董事罗超一起谈谈AI音乐数据化领域的赛道和机会。

展开全文

Lily：

今天我们访谈的两位嘉宾，来自于一家非常酷的AI音乐公司——北京灵动音科技有限公司（DeepMusic），他们就是灵动音的创始人兼CEO刘晓光以及联合创始人&CTO苑盛成。另外和我们一起进行访谈的，还有GGV纪源资本的执行董事罗超。我们先请晓光和盛成分别介绍一下自己和DeepMusic这家公司。

刘晓光：

大家好，我是刘晓光，在清华化学系读的本硕博，后来和朋友一起创办了灵动音科技这家公司。我们公司是做音乐的AIGC方向，希望能够用AI去降低音乐的各种各样的门槛，让更多人可以参与到音乐的学习、练习、创作和娱乐中。我们非常坚信我们能够让每一个人都成为音乐家。

苑盛成：

我是清华大学工程物理系，也是攻读了本硕博，博士毕业之后去了美国的罗格斯大学，在人工智能方向的机器听觉方向做了博士后。毕业之后，我在2019年回国来到这家公司工作。我希望让人类在创作音乐这件事情上，能够获得更加美好和沉浸式的体验，让每个人只要他愿意，都能够使用音乐作为他表达自我的工具。

Lily：

晓光你作为一个可以投身化学事业和制药事业的科学家，为什么会选择这样一个创业方向？

刘晓光：

其实我和音乐还是有很多渊源的。我从三岁半就开始学电子琴，九岁时过了中央音乐学院的电子琴9级，结果在我十岁时，教育部说电子琴不算特长生乐器了，于是本来想当特长生的我，只能在父母的逼迫下成为了一个文化生。自那以后，音乐就成为了我的兴趣爱好。我大学时候除了花少部分时间学习，其他时间都基本投入到了和音乐相关的事情上。

现在我之所以会做音乐方向的创业，可能和我三段经历非常相关。第一段经历，我在大学一直当校园歌手，也写了很多歌想制作出来，所以我研究了很多乐器的演奏方法，还学会了编曲和音乐制作。第二段经历，我是清华大学2011年时的吉他协会会长，当时我们吉他协会有30多位骨干，这些骨干里有很多既懂音乐又懂技术的伙伴，后来也成为我们团队最重要的一批理工男。第三段经历，有段时间我去一线做了音乐老师，负责教5-12岁儿童学习音乐基础知识。所以我现在创业，聚集起来的是三个群体的伙伴，清华的理工男朋友们，做音乐教育时积累的朋友们，还有一直在做音乐制作的朋友们，我们三拨人组成了这家公司。

Lily：

盛成，是什么契机让你决定加入DeepMusic这样一家早期创业公司？

苑盛成：

其实一开始我很纠结，因为美国那边确实有很好的研究条件，也有非常好、非常有规模有体量的这种公司。另外在人工智能领域，还有一条路是走学术圈，所以学术圈那边会更擅长一些，便于探索一些新的方向，然后工业界特别擅长把人工智能的各种模型做大。这些方向我都非常感兴趣，所以当时也有和晓光聊。

我五岁时开始学电子琴，当时我感觉非常枯燥，坚持了半年后，先受不了的是我爸妈，他们听得太难受了，也就让我放弃了音乐的专业学习之路。到了8、9岁时，我就开始学习编程，学得还挺开心的。大概到初高中的时候，我开始使用程序去参与一些机器人比赛，这些比赛让我接触到了人工智能。

到了15岁左右，我突然就对音乐开窍了，对各种音乐都感兴趣，进入大学以后还去参与了合唱队。因为清华本身是没有音乐专业的，学生都喜欢唱自己的歌，唱别人没有的，所以我就开始自己琢磨编曲。在这个阶段，我去图书馆、各种视频网站自学了各种各样的音乐知识。在学习音乐的过程当中，我发现音乐虽然是门艺术，但是它背后的很多理论都有它自己的物理规律和数学规律。

Lily：

DeepMusic做的产品，是如何从科学上和算法上实现它的机器作曲过程的？

刘晓光：

其实我们在做的事情，就是用AI赋能音乐生产过程。这一代的AI都是data driven（数据驱动）的，我们有很多数据，需要对这些数据进行标注，所以我们花了非常多精力，去标注出一个非常丰富且有足够量的数据集。我们希望AI能够读懂这些音乐里面的具体音乐知识，所以我们把音乐通过“音乐信息提取”的方式，把它变成各种各样的音乐的符号。通过音乐的知识和音乐的符号，能够把音乐做一个降维，这样我们就可以通过人类已经创造过的这些音乐，去生成一些新的音乐。

Lily：

你觉得将来AI会完全替代人去做创作吗？

刘晓光：

其实我们还是比较深度地思考过这件事情，不只是音乐，很多内容场景实际上都分为了艺术型内容和功能型内容。其中艺术型的内容是人，他还是要表达自己的情感，可能会通过一些创作的方式，最终还是要达到一个自己的艺术追求；这种场景下，工具或者AI再有能力，依然没办法完成这个场景。但如果是功能化的场景，比如我想用AI生成一个视频配乐，那我觉得AI是完全可以做到的。

尤其是现在短视频制作如火如荼，像抖音这样的平台就是一个非常大的利好。一方面视频配乐受到平台版权局限；另一方面我们想匹配到更好的音乐比如卡点功能，以前都需要创作者付出大量工作时间才能够完成，但AI可以通过各种各样的手段，去控制一段音乐去配上一个视频，实际上它就可以把创作流程缩短很多。

Lily：

超哥你是怎么发现这样一个赛道机会的？

罗超：

其实我们花了很多时间，从2019年开始就一直在扫描一个娱乐科技的赛道，在整个娱乐科技的大版块下，我们会关注像游戏、影视、动漫、音乐这些大的娱乐主题下的技术公司，包含了渲染物理仿真、AI生成等等各种各样的技术，去支撑如今多媒体的丰富的数字化娱乐的方式。这是我们一直在做的一件事情。

在大方向上，我们之所以会看娱乐科技，核心是因为我非常喜欢一本书，这本书可能也是直到今天为止，对我作为一个投资人包括曾经作为一个创业者而言，最有指导意义的一本书，它就是GEB（《哥德尔、艾舍尔、巴赫》），哥德尔是一位著名数学家，艾舍尔是一位版画家，巴赫是一名音乐家。其实它讲述的是理性和感性的交融，探讨了数学、人工智能、哲学和艺术之间的融合，就是这些看似非常多的不一样的学科，让你的左脑右脑互搏的学科，所产生的魅力和影响力是非常大的，对我的影响也非常深。我觉得娱乐科技本质也是这样，娱乐看似是非常感性的情感驱动的事，但它背后又有很多理性技术可以驱动并且助力的方向，所以我们一直在看这个方向。音乐是娱乐科技里面重要的一个赛道，也是一个离我们生活如此之近的行业，与此同时，它又如此传统。我们也想看看，这里有没有一个更大的AI+数据驱动的软件、方式，可以让整个行业能够有新的革新。

我们看这个版块时，在中国还有世界范围内的市场上看到了不少的团队，晓光他们团队在这件事情上技术积累非常深厚，同时团队对这件事情的热情和喜爱是非常深的。我觉得做任何事情，只有真的爱一个行业，并且把自己所学投入在自己爱的这件事情里，就像GEB那本书所展现出来的，把感性上的事和理性上的东西做一个最完美的结合，才能够把它做到最好。所以在我看完这个行业之后，我当时觉得DeepMusic团队是我愿意去支持、去陪伴一起创业的团队。

Lily：

其实在美国也有类似大公司在做类似的事，比如谷歌就在音乐AIGC上有不少积淀，包括AudioLM和现在的MusicLM都吸引了全行业的关注。我也想请二位介绍一下，我们跟它们相比，有什么独特的战略优势和技术优势吗？

苑盛成：

首先，我觉着我们的整体路线和谷歌的路线有所不同。在我看来，谷歌是人工智能领域灯塔级别的存在，它会证明很多事情的可行性。AudioLM和 MusicLM这两个模型，实际上就向我们证明了“从文本直接生成音频”的技术路线的可行性。接下来，我们会非常期待能够看到有越来越多类似这样的模型、技术，在音频空间里直接给我们很多惊喜。

另一方面，像这样一种模型/任何一个技术，其实都会有它擅长的地方和相对不擅长的地方，谷歌这样一条发展路线也会遭遇挑战。挑战一就是声音质量问题，不论是什么样的机器学习，当机器去学习音频空间时，目标是那些用数字音乐工作站等专业软件做出来的音频，那么你永远只能逼近而不可能超越它的音质；至于能够逼近到何种程度，就要看你的模型是否足够大，你的训练是否足够。

符号式的音乐生成，也是在生成内容，但并不是一个简单的检索。只是它生成的空间不是完整的音频空间，而是音乐人可以去操作的工程上的空间。这种空间有两个好处：第一是它最后渲染出来的音乐质量一定是商品级质量；第二是这条路线上每个环节是音乐人最容易去控制的。对于音乐人来说，他一定会要求自己控制生产音乐过程中的主导权，需要明确地知道自己在干什么。通过文本去生成音频，很多时候能够满足音乐人，靠粗糙描述和大量随机产出内容，去选择更加接近理想状态音乐的需求。

Lily：

在传统音乐创作上，过去的音乐人是怎么创作的？有了我们的产品之后，会有什么样的变化？

刘晓光：

过去我们想去做一个音乐创作/做一首歌，大概要经过“词曲编录混”五个过程，从偏技术角度去讲，这些都来自于不同模态，尤其是混音，它是一个偏工程化的事情。如果你想通过一款产品，完全赋能到这个场景上，我们觉得是可能的，但它的工程化的量是极大的。它需要的一个工程化的基础叫“数字音乐工作站”，即我们去做音乐用的软件，里面有各种各样的模块技术，能够帮助音乐人提供里面的一些价值，这个价值可能分成两部分：

第一，比如说作词，这个环节现在已经有一些AIGC技术可以写得很好，比如ChatGPT就可以。音乐人可以运用这些技术，去快速给自己提供各种各样的灵感，从而把创作过程变得更简单。

第二，在曲和伴奏的制作过程中，音乐人都是需要这样的灵感的，所以我们在曲和编曲这块投入了最大精力。我们认为这是在AI音乐领域里最交叉的两个环节了。

Lily：

但是音乐往往蕴含了很多超越声音本身所表达的内容，情感、情绪等等，如果只给模型听一首歌的一部分，你觉得它能理解创作者的真实意图吗？怎么能确定它理解的就是正确的呢？

刘晓光：

首先我们认为，AI去听懂人类的音乐可能分成几层：最浅的一层是里面运用了什么音乐知识，比如有人声、吉他、鼓点，音高什么样，歌词段落什么样，重低音什么样等等，这些是AI去听懂音乐所含音乐知识的过程，其实涉及一个领域叫“音乐信息提取”。再进一步，不管是想让AI去理解知识也好，还是直接去了解其中表达的情感也好，一定要有一些配对的数据，比如人要标注大量的音频里表达的是什么。我们觉得可以直接从音频去标注一些音乐片段里面表达了什么，但这其实是会比较困难的，因为一个人认为是情感，另一个人不一定认为是情感。

苑盛成：

我用“三度创作”来诠释一下音乐的创作过程三步骤：第一步，作曲家把音乐创作出来写成谱子的创作体验；第二步，演唱家和演奏家把它演唱/演奏出来交给用户的表达体验；第三步，观众听到了这样的音乐并在心中产生了审美体验。其实每一个人在这个过程当中，都有自己的艺术体验，每一个过程都有自己的艺术价值在里面。

Lily：

在我看来这可能也是技术上最难的部分，那在您看起来它是更难还是更简单？

苑盛成：

讨论这个问题，我们不如从ChatGPT这样一个我们已经见到的模型去入手，文本当中也会存在一些暗喻/引申义，比如“今晚的月色真美”，通过文本本身直接去看含义，它是不携带这个意思的。ChatGPT这样的模型或者大模型有没有可能学到这背后的情绪，我认为是有可能的。因为互联网上已经沉淀了大量文本，这些文本是有上下文关系的，这些相关性会定义“今晚月色很美”这句话，大语言模型理解好了里面的空间后，它就能够通过其他文章的上下文推测出来，知道这背后蕴含的什么。

在音乐里面，实际上也有一些音乐语言能做这些事。比如我们在和弦系统当中，有一些和弦可以去表达一些遗憾的、令人心碎的情绪，这样的情绪通常意味着它要延长，因为遗憾总要回味一下。那模型就可以在这个地方延长一下给你叹一口气。另外有的时候音乐是有歌词的，这部分歌词往往也和离别、惆怅情绪相关，甚至做成视频MV后，弹幕上可能也会有人发表类似情绪的言论。当模型形成一些配对的数据之后，语言空间当中一些引申含义，一些情绪表达，就会映射到音频空间/音乐知识的空间当中，能从归纳层面上给出这样一种判断。

Lily：

我问一个比较商业化的问题，现在有多少人在使用我们的应用，是B端还是C端为主？

刘晓光：

首先，我们认为我们在做的是音乐的AIGC，AI其实代表的就是它的商业前景，它的商业价值主要体现在，它会让一些内容的生产过程变得更快更便宜。这样的场景，我认为可能是在一些现在的商业模型里面，比如我们已经把我们的 AI编曲功能，赋能到了全民K歌的“换曲风”功能上，你可以一键把流行音乐风格换成古风风格，这样就能给全民K歌上的用户更多表达音乐的方法。像这样一个功能，以往可能需要做很多伴奏，一个伴奏就要花很多钱很长时间。当AI能够完成这件事以后，本来可能一个新的产品/运营计划，它的成本很高，收益是大于不了一的，但是在AI赋能下，这件事有可能就大于一了。

所以我们认为，AIGC提供的价值，是能够在这种已有的商业里面去提供更多可能性。像这样的功能，我们提供给B端，像赋能在全民K歌端上的这个功能，目前已经让我们的 AI编曲技术触达了千万级用户，目前使用次数已经超过了3亿次。它对于我们来说，是一个非常好的去验证技术的场景。

我们希望我们的技术不仅能够赋能到现有的商业模式，还能够让更多人进入到更深度的音乐世界里，不只是停留在听音乐和唱歌这类简单的音乐娱乐行为里面。我们自己在做AIGC音乐产品的时候，可能往两个方向去走：第一，在功能性音乐上直接能够去满足很多场景，像我们的BGMCAT的产品，目前每个月都会收到上万次音乐生成的申请；第二，我们另外一个产品是口袋乐队，我们希望可以通过它，让用户去理解音乐，并且进一步降低玩音乐的门槛。我们想用这种非常亲民的可视化方式，让每个人能够感受到音乐带上视觉、听觉的各种各样的交互。

Lily：

它会涉及版权问题吗？

刘晓光：

我们在这个产品里面，会让用户提供他创作的一首歌的词曲，然后我们的AI为它创作伴奏，其实伴奏就是各种乐器的音轨以及乐器的演奏，这些是不涉及版权的。实际上它更像一个工程化场景，没有特别创作化的场景，更多还是用户自己去创作，我们的产品帮他完成他不太容易学习的除创作以外的所有部分。

Lily：

您现在在做的这个事，您觉得它会成为一个单独市场吗？如果未来咱们已经积累了大量数据，但是巨头突然冲进来了，也可以随时来做这个事，那你有没有觉得这种挑战也会很大？

刘晓光：

我认为大家已经慢慢关注到音乐标注是一个很重要的事情了。其实音乐标注的门槛比别的像自然语言图像的标注都会困难一些，因为音乐标注需要非常深的一些音乐知识。我们从最开始做这家公司时就认识到这件事情，所以我们有一个十几人的数据组，他们都是非常专业的音乐人，把这些数据标注得非常精准。

其实这里边要建立的一个模态连接，就是音乐的符号，它是描述音乐信息的一些自然语言，和音乐音频模态进行一些连接。想把音频描述成这些自然语言/符号的话，它的门槛超级高，并且我要非常精准的数据，比如你想把自然语言和音频这两个模态之间进行连接的时候，你也需要大量的对位的这种数据。

历史小故事

历史人物故事_中国历史朝代顺序_历史记录

晓光 莫扎特 DeepMusic amp 释放

S5 Vol.03 DeepMusic刘晓光amp;苑盛成：释放你灵魂中的莫扎特

jnlyseo998998 发表于2023-04-30 16:33:03 浏览31 评论0

少长咸集

历史人物故事_中国历史朝代顺序_历史记录

晓光 莫扎特 DeepMusic amp 释放

S5 Vol.03 DeepMusic刘晓光amp;苑盛成：释放你灵魂中的莫扎特

jnlyseo998998 发表于2023-04-30 16:33:03 浏览31 评论0

少长咸集

晓光莫扎特 DeepMusic amp 释放