出品 | 搜狐汽车
编者按:3月31日,由中国电动汽车百人会主办,清华大学、中国汽车工程学会、中国汽车工业协会、中国汽车技术研究中心、中国汽车工程研究院共同协办的中国电动汽车百人会论坛(2023)在京开幕。本届论坛为期三天,以“推进中国汽车产业现代化”为主题,共设有2场全体会议、9场开放专题论坛和4场闭门会议。论坛同期将举办丰富多彩的新车展示、产业链及核心零部件展示、以及多个重磅课题研究报告发布等全面贴近产业实践,促进跨界交流的互动活动。
在4月2日“智能汽车论坛”现场, 商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚先生发表了演讲,以下内容为演讲全文。
各位同仁、各位嘉宾,大家上午!我是商汤科技王晓刚,新年伊始,像ChatGPT,还有GPTt-4掀起了通用人工智能的热潮,这是一场新的技术革命,今天我也是非常有幸能有这个机会跟大家一起探讨通用人工智能和多模态的大模型给智能汽车带来的机遇和挑战。
从2012年开始,过去十年人工智能的技术革命是以深度学习不断去突破工业应用的红线为起点的,诞生了一系列的AI+场景的应用。那么,基于每个场景都有不同的专属的模型。这里面研发成本比较高,周期比较长。从2022年开始,在新的通用人工智能它是以非常高效的方式去解决海量的开放式的任务,更加去接近人的智能,而且能够去产生有智慧的内容,它也带来了新的研究范式。那么,就是基于一个非常强大的多模态的AGI模型,通过强化学习和人的反馈去不断解锁这个模型它的新的能力。
什么是通用人工智能呢?我们可以跟现有的人工智能系统做一个比较,现有的人工智能也能够接收多模态的数据,但是它输出的任务都是事先定义好的。如果我想给这个系统去增加一个新的任务,我就要对系统进行重新的设计,还要采集大量的样本。在通用人工智能时代,我们通过输入提示词和多模态的数据,它可以去生成多模态的数据,更重要的它可以用自然语言去生成对任务的描述,自然语言可以以非常灵活的方式去覆盖大量的长尾的问题和这种开放性的任务,甚至是一些主观描述。比如说,在之前我们描述,通过人的外观去做Human的search的时候,一个人工智能系统可能是有几十个标签,我们做过实验,如果要是用自然语言描述,我们可能有一万多个词,通过它们的组合去描述各种任务,实际上是非常强大,而且是灵活的。
那么,这里面举一个,比如说在自动驾驶里面遇到的一个场景,一个例子。规定一个图片,我们想去问我们是否需要减速?在上面,在我们现有的AI的系统里面,我们首先要做物体的检测,能够检测物体框,里面做文字的识别,最后做这样的一个决策。那么,这个所有的过程里面的每一个模块都是事先定义好的任务,在通用人工智能下,给定图像,我们只需要用自然语言去问这个图像的问题,比方说,这个图标是什么意思,我们应该做什么?那么,这个模型本身不会发生变化,它输出就会通过自然语言的方式能够给我们一系列的这种逻辑的推理,最后给我们结论。比如说,它可以告诉我们这里面的限速是30公里,前面100米是学校的区域,有小孩儿,你应该去小心,能够将车速降速到30公里以下等等这一些。可以看到,这都是一些开放式的新的任务,可以对我们人工智能系统进行一个非常大的变革。
通用人工智能还有非常强的一点,它能够产生内容,而且是有智慧的内容。我们智能驾驶,或者自动汽车里面我们有“数据飞轮”的说法,我们的模型能够从驾驶终端采取高质量的数据,对模型进行更新,然后再去从终端提升数据的量和质。其实在通用人工智能时代,它会有一个智慧的飞轮,这里面人和模型会产生互动,人会给模型输入什么呢?去输入Align With Human Intention,就是这个模型是很强大的,但是它其实不知道人需要它什么样的能力。那么,通过人的这样一个反馈,它就更好的能够去理解人需要它展示什么样的能力,而去解锁这个模型更多的技能。同时,这个模型给人输出的是什么呢?是有智慧的这样的一个内容。我们都知道,这些内容会激发人的各种创作和智慧的产生这里面又会产生智慧的飞轮。但是,AGI对算力的需求是非常大的,我们可以看到ChatGPT一次训练的成本是上千万的美金,今天它的推理的成本每天也有几百万美金高昂的成本在。
商汤我们从2021年在上海的临港建立了我们AIDC的超算中心,实际上是在这方面也有提前的这样的一个布局,有5000P的算力,1万块的A100,是大装置,而且可以实行数千卡的大规模的并行的训练,奠定一个好的基础。其实我们实际上是从2019年开始,从10亿参数的视觉模型,到今天有320亿最大规模的视觉的模型。我们在NLP领域,今天也有我们的SenseChat 1800亿参数的模型,包括我们现在有能力去训练1800亿参数的多模态的模型。基于这个多模态的模型,我们还可以做内容的生成,还可以做决策。所以,未来我们是通用人工智能是多模态的G模型可以做视觉的感知,语言的理解、内容的生成和决策的推理。
商汤绝影是商汤下面做汽车的业务板块,我们坚持驾舱云三位一体的这样的一个发展的策略。我们希望能够通过驾舱融合,带来更好的驾舱体验,我们的AI云能够去为自动驾驶提供数据比混的服务,能够为智能座舱提供成为第三的生活空间。同时,我们的AI语言也是为通用人工智能实现智能驾驶和智能座舱奠定了非常强大的基础的设施。
我们可以看,在自动驾驶领域,现在主流的方式就是BEV是我们主流的技术路线,未来可以朝多模态、通用智能的方向发展,我们通过AIGC可以去生成困难的样本,我们模型去输入多模态的这样的一些数据。在这里面,自动驾驶多模态的大模型可以做到感知和决策的一体化。输出对3D的环境进行重建,我们的行为解码可以生成完整的路径的规划。同时,我们动机的解码器可以用自然语言去描述我们推理的过程,使我们自动驾驶的系统变得可以解释。
我们也是基于这些多模态的大模型可以做到数据的感知的闭环和决策的闭环,从前端自动的去采集高质量的数据,利用大模型自动的数据的标注,包括检测,是产品的检测,是能够几百倍的去提升我们模型迭代的效率和降低它的成本。
在智能座舱里面,通用人工智能使我们AGI模型具备空间环境的理解、用户状态的感知,多模态的指令,还有多轮对话,内容生成等一系列的能力,它就可以去赋能,作为我们情绪的感知,智能助手,基于情感的对话、创意、内容的生成,个性的交互等等这一系列不断地去提升我们的个性化的体验。也使我们的场景从上车、行车、停车、离车拓展到娱乐、办公、购物、休息,这里面有很多的可以去探索的应用的场景,时间关系我们就不再赘述了。
我想我们今天到了一个已经是做到人机共驾,实际上智能汽车是通用智能实现闭环的一个非常好的场景,我们有人机共驾。未来我们希望车和模型之间能够产生更有效的互动,那就完成了从人到车,到模型这样的一个互动的闭环。能够让通用人工智能为我们提供更好的驾舱体验,解锁无限的想象空间。
最后,这个月商汤我们也在通用人工智能上面会有我们的技术产品日,去发布一系列的多模态的大模型,语言的大模型、感知的大模型等等,我们去跟我们的客户和合作伙伴一起迈向通用的人工智能,谢谢大家!