×

模型 体系 能力 升级 发布

毫末智行发布智算中心MANA OASIS 赋能体系能力/升级5大模型

jnlyseo998998 jnlyseo998998 发表于2023-03-10 09:10:04 浏览19 评论0

抢沙发发表评论

出品 丨 搜狐汽车·汽车咖啡馆

作者 丨 李德辉

2023年1月5日,第七届HAOMO AI DAY如期而至。毫末智行CEO顾维灏曾表示,他希望将AI DAY打造成一个行业盛事,汇报毫末智行年度发展的同时,也创造一次与行业充分交流的机会。

不过,从去年开始,毫末智行开始增加“彩蛋”环节。在AI DAY上,毫末智行增加了招聘环节,以应对企业日益增长的人才需求。同时,从去年开始,毫末智行董事长张凯发布的年度预测中,也将自动驾驶人才争夺战加剧作为行业发展的一个重点提及。或许,这已经成为头部自动驾驶技术公司的惯用方式。在今年Tesla的年度活动上,马斯克也将招聘人才作为重要环节之一。

同样,在今年的AI DAY上,这两个细节信息也出现在张凯和顾维灏的演讲中。

这一切,都来源于张凯和顾维灏的切身感知,即城市NOH落地竞争加速、商业化竞争加剧。

去年11月份,创办于2016年的自动驾驶明星公司Argo AI宣布将关闭并解散。这是一家被国际汽车巨头福特和大众看好,并予以资金加持的企业,已经在美国和德国两个国家超过8个城市进行了广泛的开发和测试。

一时间,自动驾驶行业遇冷的基调再次成为舆论的焦点。消费者的质疑也逐渐从自动驾驶什么时候能够落地转变成了自动驾驶到底能不能实现。

然而,在毫末智行这边,现实与未来确实一番欣欣向荣的场景。

在AI DAY上,张凯表示:“2022毫末三大战役稳健收官。”在商业和产品上,毫末智行取得丰硕的成果。

2022年毫末持续稳居中国量产自动驾驶第一名,三代HPilot产品搭载至魏牌、坦克、欧拉、长城炮等近20款车型,辅助驾驶用户行驶里程突破2500万公里;毫末城市NOH是中国第一个可大规模量产的城市导航辅助驾驶产品,目前软件封版达到交付状态;末端物流自动配送车已初步完成商业闭环,交付超1000台,小魔驼配送订单量突破13万单,商业化进程正全面提速;MANA学习时长超42万小时,虚拟驾龄相当于人类司机5.5万年。此外,毫末自研的AEB算法助力魏牌、欧拉、坦克的四款车型获得E-NCAP(欧洲新车安全评鉴协会)、ANCAP(澳大利亚新车安全评鉴协会)五星安全认证,搭载毫末HPilot的300台摩卡DHT-PHEV车型也已奔赴欧洲。毫末不但是中国首个自研AEB算法落地海内外的公司,也是中国首个出海欧洲、澳洲的自动驾驶公司。

对于2023年的总体趋势,张凯认为:“2023年,智能驾驶下半场的竞争将进入加速期,高阶智能驾驶产品商业应用将迎来大规模落地。”具体到行业、技术、产品和人才等四个方面,像往常一样,张凯给出自己的预测。

在行业方面,2023年自动驾驶将全面进入3.0时代;高级别智能驾驶将成为中端车型标配;全新一代芯片、传感器进入市场,自动驾驶生态呈现更丰富多样性。

在技术方面,大模型在数据合成、知识提取等方面的能力将助力自动驾驶迭代速度实现量级提升;自动驾驶系统比拼将由功能竞争转变为通勤效率竞争;超算中心会成为自动驾驶企业的入门配置。

在产品方面,城市导航辅助驾驶进入重感知阶段,大规模量产交付大幕拉开;智能驾驶的用户体验将从尝鲜转变为用户依赖;末端物流自动配送车整体成本降至10万元以内,将进一步改善生产关系。

在人才争夺方面,AI自动驾驶领域激烈的人才竞争将会延续到2023年。

2023年,毫末智行的发展规划中,最重要的是完成多平台、数十款车型、数十个项目的异步并行开发,通过智能驾驶流程化开发和标准化交付,进一步推进未来搭载毫末辅助驾驶产品的乘用车达百万量级的目标。

这也是毫末智行加大人才招聘力度的原因之一,对于现有的1000多人来说,在100个城市落地城市NOH是一个巨大的工作量。

在9月13日第六届HAOMO AI DAY结束之后的采访中,顾维灏提及了交付工作量对人才需求的强烈程度。对于人才学历和能力的要求,顾维灏当时表示,只要具备一些基础,可以在毫末智行团队的学习中成长。

即便如此,从张凯的预测中来看,人才数量依然是毫末智行现在需要解决的组织难题之一。鉴于毫末智行采取“重感知 轻地图”的技术路线,据毫末智行COO甄龙豹透露,在每个城市落地,都需要进行大量的路测工作。因此,除研发人员以外,工程人员也是团队建设中的关键一环。

除了上述的乘用车产品落地和100个城市NOH落地之外,张凯介绍,毫末智行的另外两个重要的工作是:其一,毫末将在智算中心助推下,将大模型的应用落地进行到底;其二,毫末将继续坚持5S合作服务模式,助力合作伙伴快速实现产品和解决方案落地,加速无人配送行业应用进程。

技术层面的进展,本次发布会上,毫末智行传递的信息重点与以往不同,从之前的体系 、算法优势转向模型应用。

在发布会上,毫末智行宣布智算中心“雪湖·绿洲”(MANA OASIS)正式成立。从自动驾驶技术公司的发展趋势来看,智算中心将成为标配。在此之前,特斯拉和小鹏汽车相继建立并公布了智算中心的落成。不过,与特斯拉自建智算中心不同,小鹏汽车和毫末智行都选择了与专业伙伴合作,小鹏汽车选择了阿里云,毫末智行选择了火山引擎。

顾维灏介绍:“MANA OASIS是中国自动驾驶行业最大智算中心,每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。”

智算中心的价值在于,让毫末拥有了超级计算能力,数据、算力充沛,让数据更快速转化成知识,以实现将本增效的目的。

具体表现体现在三个方面:数据管理能力、算力优化、训练效率。

数据管理能力方面,毫末历经两年研发,建立了全套面向大规模训练的Data Engine,让GPU持续饱和运行,实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒。

算力优化方面,毫末与火山引擎合作,部署了Lego高性能算子库、ByteCCL通信优化能力、以及大模型训练框架。软硬一体,把算力优化到极致。

训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个Clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。

在此基础上,毫末智行在大模型训练方面取得了显著的成果。

顾维灏介绍,视觉自监督大模型,让毫末在中国首个实现4D Clip的自动标注;3D重建大模型,助力毫末做数据生成,用更低成本解决数据分布问题,提升感知效果;多模态互监督大模型,则可以完成通用障碍物的识别;动态环境大模型则进一步使用重感知技术,降低对高精地图依赖;人驾自监督认知大模型让毫末的驾驶策略更加拟人化,安全及顺畅。

第一,视频自监督大模型,让毫末4D Clip标注实现100%自动化,人工标注成本降低98%。为了更低成本、更高效获取更多高价值数据,需要解决从离散帧自动化扩充到Clips形态的问题。毫末首先利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的Clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;然后,将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成Clip,其中10%是标注帧,90%是未标注帧,再将这些Clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向Clip标注的100%的自动转化,同时降低98%的Clip标注成本。毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。

第二,3D重建大模型,让毫末实现了数据“无中生有”,获得海量corner case(长尾场景)不再是难事。面对“完全从真实数据中积累的corner case困难且昂贵”的行业难题,毫末将爆火的三维重建NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低,增加NeRF生成的数据后,还可将感知的错误率降低30%以上。

第三,多模态互监督大模型,让车辆长出“火眼金睛”,精准识别异形障碍物。在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。多模态互监督大模型引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。

第四,动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。为此,毫末在BEV(鸟瞰图)的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测,让毫末的感知能力,能像人类一样在标准地图的导航提示下就可以实现对道路拓扑结构的实时推断。毫末认为,解决了路口问题实际就解决了大部分城市NOH问题,目前在保定、北京,毫末对于85%的路口拓扑推断准确率高达95%。即便是非常复杂、非常不规则的路口,毫末也能准确预测。

第五,人驾自监督认知大模型,掌握高水平司机的开车技法,让驾驶决策更聪明。在探索“使用大量人驾数据,直接训练模型做出拟人化决策”方面,毫末为了让模型能够学习到高水平司机的优秀开车方法,全新引入了用户真实的接管数据,同时用RLHF(从人类反馈中强化学习)思路先训练一个reward model(奖励模型)来挑选出更好的驾驶决策。通过这种方式,使毫末在掉头、环岛等公认的困难场景中,通过率提升30%以上。这与AGI领域爆火的ChatGPT的思路相同,通过人类行为反馈来选出最优答案。

尽管顾维灏将此次的技术重点放在了大模型上,但是并不意味着体系能力建设以及技术基础的夯实已经“封箱”。毫末智行已经与中科院自动化所在技术体系方面建立合作,与北京交通大学计算机与信息技术学院在人才培养、技术研发、行业标准制定等方面建立合作,继续强化基础实力。