36氪获悉,人工智能音乐服务商「DeepMusic」(灵动音)于日前宣布完成了近千万美金的A+轮融资,GGV纪源资本领投,丰元资本跟投。融资额将用于自研AIGC音乐引擎及其应用的研发,加速国内外市场拓展。一苇资本担任长期独家财务顾问。
「DeepMusic」成立于2018年,是国内首家基于自研AIGC能力打造音乐引擎的国内人工智能音乐服务商,致力于将AI音乐技术转化为面向各类音乐人群的场景级应用及产品。
“AIGC的出现,极大地变革了人与内容的关系。”
「DeepMusic」创始人兼CEO刘晓光告诉36氪,在大模型正在迅速分走一部分内容创作心智的当下,音频模态还没有像自然语言、图像等一样被广泛应用和场景化。而音乐实际上和绘画、影像等其他艺术形式一样,虽然进行过系统性学习的人总是爱好者中的极少数,但每个人其实都有非常个性化的喜好和理解。在AIGC越来越垂直的技术与资本趋势下,AI所带来的更普惠的音乐创作方式和技术交互价值即将到来。
音乐知识云化,让AI“听懂”音乐
对市场的初步理解和把握,来自于刘晓光在音乐社团中度过的大学生活。2013年,在清华就读化学专业的刘晓光成为了一名颇有名气的音乐制作人,也结识了同在清华热爱音乐和人工智能的伙伴 。刘晓光和其他几个同时爱好音乐和编程创始成员,发现了“AI x 音乐”的魅力,组建了「DeepMusic」的创始团队。
数据显示,目前全球音乐用户已经高达16.3亿,但音乐作为社交媒体、短视频平台等流行视角下最重要的自我表达方式之一,专业性门槛却一直没有被降下来。尽管近年来,库乐队等工作站已经一定程度上简化了编曲的入门难度,但乐理知识和数字演奏能力的阻碍,导致了距离“全民音乐创作时代”的到来,还有很长的路要走。
而产业机会的背后,一边是唱片公司和有限且昂贵的专业编曲资源几乎垄断了传统编曲流程,另一边是个人用户的创作影响力正在与日俱增。根据抖音数据,在播放量大于1万的视频中,有62%的内容来自于粉丝量1万以下的普通创作者。
“我们想要让音乐爱好者可以不用花大量的时间系统学习音乐,没有乐理知识的人也能表达自己的音乐天赋。”
刘晓光直言,当下,数字世界留给非专业音乐爱好者参与创作的方式十分有限。由于缺乏出色的音乐底层基础设施,音乐创作的门槛之高、创作耗时之长,都令普通人望而却步。就像我们很难想象在全民K歌等翻唱应用出现之前,有多少热爱唱歌的人善于使用电脑上的专业录音软件混缩声轨。
在AIGC时代,一切关于全民创作的“痒点”,都有了更直白的回答。
相比AI绘画、ChatGPT等所代表的模态形式,用AI生成音乐的难点之一在于更大的语义鸿沟,即语言描述与音乐内容的对应。这也是传统音乐制作人最重要的工作:拿到曲谱之后,制作人不只需要编曲,还需要通过沟通或协调音乐人把创作者抽象的风格描述和情绪语言转化为音乐符号。
除了自然语言处理这一更下游的能力,在过去的AI音乐产业中,结构化数据是更关键的痛点。
“可以说,音乐的知识从来没有能够被人类检索过。”
展开全文
没有公开的结构化数据,是智能音乐这一交叉领域没有先于其他赛道爆发的原因。回想起过去参与音乐教育的经历,刘晓光表示,乐理结构本身是枯燥的,比如教一个小孩“四三拍”,最好的学习方式就是跟着熟悉的儿歌打拍子。但在人们日常听的流行音乐里,大多数人还是不知道哪些歌是四三拍的,也不知道诸如“悲惨”、“激进”的听感是通过哪些音乐符号的应用来实现的。只有先通过数据标注把人类音乐存量中的音乐知识和信息拆解出来,进行连接和云化,才能让AI听懂音乐,从而构建贴近人类专业制作过程的AIGC。
为了实现这一目标,「DeepMusic」创建了音乐结构标准UMP及自动标注技术,并在过去几年中分析了大量音频文件,将它们的每个小节用了什么样的音高、和弦、段落等等音乐符号,将超过2万首歌的乐理信息转化为一个可用于训练模型的数据库,使得识别准确率能够达到90%以上,能够满足大部分C端用户的场景需求。
当技术环境来到AIGC进入到自然语言大模型的时代,「DeepMusic」自研的AIGC音乐引擎“Mutrix”在兼容开源语言模型的基础上扩展为多模态模型,最终达成自然语言对音乐的控制。
目前,「DeepMusic」的音乐结构标准UMP已经被TME旗下全民K歌、QQ音乐多个场景应用。与此同时经过多次迭代的UMP Board已经自主完成了40万首歌曲的AI自动标注。在输出的音乐风格上,「DeepMusic」也正在进行出海内容的扩充,加速推进海外市场布局。
工作站嵌入工作流,元宇宙打开泛C端市场
“一个音乐爱好者想要创作一首歌,需要支付的编曲费用平均在5000元左右。”
根据刘晓光的介绍,单就编曲而言,这一价格甚至和一般唱片公司支付给编曲师和后期的成本差不多。但普通爱好者创作音乐的初步目的可能并不是变现,而是个人爱好或者社交目的,这就导致了一个内容创作收益和成本极其不对等的情况。
然而,尽管音乐创作并不是一个很“痛”的生活必需品,需求却在文化娱乐、青少年教育、游戏等多个领域保持着显著增长。数据显示,2021年中国在线音乐用户达6.89亿,在全球16.3亿左右的活跃音乐用户中占比可观。同时,中国K12阶段进行音乐学习的青少年占比高达56.5%
产品方面,技术特点决定了AIGC目前还是一个只能应用于生产端的能力,而流行音乐却似乎是一个“供大于求”的产业。考虑基于音乐引擎打造面向各层级音乐用户的音乐消费端的新机遇,「DeepMusic」的产品矩阵目前包括:旨在降低专业创作门槛的音乐工作站“和弦派”,该产品已进入内测阶段;以及致力于覆盖泛音乐用户的社交娱乐元宇宙产品“音梦岛”,将线下音乐娱乐场景线上化;已上线了“口袋乐队”作为音乐创作与音乐元宇宙玩法的试验场。
「和弦派」产品界面
「口袋乐队」产品界面
其中,“和弦派”作为比库乐队门槛降低极大的音乐工作站,对于AIGC音乐能力、实时渲染能力等具有更高的技术要求,将帮助「DeepMusic」把底层AI音乐技术率先嵌入到音乐创作的工作流中。
从2019年开始,「DeepMusic」团队用了很长时间打通引擎级的工程化开发,使得一个跨平台的高性能音频引擎成为了可能。与近来炙手可热的Google MusicLM相比,「DeepMusic」将目光聚焦于与创作者深度结合的音乐的创作以实现自我表达,而非价值占比仅为1%的功能性音乐(如轻音乐、睡眠音乐、视频配乐等)。
团队方面,「DeepMusic」核心成员均为清华教育或科研背景,且在音乐学习和编曲方面有着深厚造诣。CEO刘晓光作为音乐制作人主导制作近百首作品;CTO苑盛成本硕博毕业于清华大学工程物理系,在美国罗格斯大学大数据实验室任博士后,从事音乐和听觉模型研究。
谈及AIGC可能会涉及的版权问题,刘晓光表示,在当前流行音乐的话语体系下,所谓的“创意”都是有规律可循的。在此背景下,用AI去积累和理解足够多的音色、演奏方式等,从而建立全集,是完全可实现的。
目前,「DeepMusic」已经和全民K歌落地了多项合作,例如上线了一个把存量歌曲一键remix成其他风格的功能,为用户提供更丰富的内容表达空间。这项技术已经触达了上千万的用户,被使用超过3亿次。
“短期内,我们会想办法把AIGC的能力更多地嵌入到音乐人熟悉的工作流中。”
未来,「DeepMusic」将继续深耕技术成果的产品化转化和商业化探索,迎着AIGC的浪潮,让音乐创作变得像现在的视频创作等场景一样简单快捷,让普通人的灵感和天赋不再因为专业门槛而被扼杀。
GGV纪源资本执行董事罗超:我们从2019年开始持续扫描娱乐科技赛道,关注游戏、影视、动漫、音乐等大的娱乐主题下的技术公司,包含了渲染物理仿真、AI生成等各种技术,支撑如今多媒体的丰富的数字化娱乐方式。娱乐看似是情感驱动的事,但背后又有很多理性的技术可以驱动和助力的方式。音乐是娱乐科技的重要赛道,也是一个离我们生活如此之近的行业,但同时又如此传统。我们认为AI+数据驱动的方式,可以让整个行业有革新。DeepMusic在这件事情上技术积累非常深厚,团队对此又有着非常深的热爱。我觉得只有真的爱一个行业,并且把自己所学投入在自己爱的事情里,把感性和理性做一个最完美的结合,才能够把它做到最好。所以在看完这个行业之后,DeepMusic团队是我愿意去支持、去陪伴一起创业的团队。
一苇资本合伙人林文欣:一苇长期关注AI、XR等底层技术因素对生产力及C端消费者生活与娱乐方式的改变,从22年初起尤其关注生成式AI给各行各业带来的深切变革。很荣幸持续与DeepMusic团队合作,合作中始终被DeepMusic团队对音乐的纯挚热爱、极致的聪明和自我迭代能力,以及不断被验证的技术远见所深深感染。作为AIGC音乐赛道占据绝对优势的先行者,期待DeepMusic引领“人人都是音乐家”的时代向我们大步走来。