【汽车人】大模型:汽车的自我革命
汽车变身为行走的计算终端,其革命性形态已经出现。现在就参与大模型构建和应用,就显得比较重要了。
文 /《汽车人》黄耀鹏
(资料图片)
今年的新能源汽车产业,如果说有什么技术发展方向是业内共识的话,除了高压快充普及,就是大模型接入了。
7月31日,吉利预告了大模型技术;8月8日,广汽推出“广汽AI大模型平台”;本月,奇瑞将发布自己的AI大模型……在此之前,小鹏、理想、特斯拉都宣称自己拥有“自动化数据闭环系统”(大模型的一种应用方向)。李想公开宣称:“大模型的研发和训练,是智能电动车企业的必要能力。”
而平台级公司,百度、阿里、腾讯、360、华为都推出了自己的大模型。上半年结束的时候,国内大模型已经达到80个以上。中美两国的大模型数量占据了全球80%。
面对大模型,车企有三种选择:第一种是从基础层开始,全盘由自己搭建;第二种是在平台级企业搭建的基础层上搭建应用层;第三种是直接接入某个大模型。
目前,三种玩法都有一批企业参与。百度的文心一言(语言大模型),就有长安、红旗、岚图、长城、吉利、东风日产、零跑、集度等几十家车企接入。
大模型有很多应用方向,语言类的集中于智能座舱的优化。而汽车必须首先满足安全便捷地运送乘客,自动驾驶能力是刚需。因此,现在车企部署/接入的大模型,主要就是做自动驾驶,或者其中的一些环节。
什么是大模型
到底什么是“大模型”?
其实“模型”就是一段计算机程序,用来构建一个虚拟的神经网络。和生物的神经网络类似,只有刺激到一定程度,神经才会活跃。如果再强化刺激,就会输出活动。
这其实就是多段函数的表达。神经网络模拟任意连续函数,也就成了可能。上世纪80年代之后,这些计算机概念就建立起来,并在自动驾驶上应用,但一直没有大的突破。
原因在于参数量。这是ChatGPT火起来的重要原因。OpenAI公司发现,模型参数如果多到一定程度,系统智能(模型精度)就会极大提升,原理现在无法解释,但已经有了一个词汇来形容——“涌现”。
多到什么程度呢?一般来说,至少要1亿左右。当然,因为自然语言的信息密度高于图像,所以ChatGPT-2的参数量达到15亿个,而ChatGPT-3则达到1750亿个,刚好和人类神经元数量级别差不多。
不过,自动驾驶方面的应用,现在用不了那么多参数。因为“涌现”现象尚未在计算机视觉领域出现。考虑到成本,车企们都未将大模型参数量做到ChatGPT-3那么夸张。但上亿是没跑的,否则就很难叫大模型,需要部署超算中心或者云端算力中心,来运行如此之多的参数。
运行参数用来做什么?对自动驾驶系统进行数据训练。那么大模型定义就呼之欲出了,就是拥有大量参数、运行于大算力硬件平台上,并能够完成无监督学习(自我训练)的计算机程序。
自动标注和预标注
以前都是有监督学习(人工训练),现在让AI自我训练,就需要先完成数据闭环。这就是为什么几家新势力说自己拥有“自动化数据标注系统”的原因,其实就是大模型的一个功能。
而完整的数据闭环则囊括了数据采集、数据回流、数据处理、数据标注、模型训练、测试验证诸多环节。其中,“数据标注”是AI自我训练的前提,也是AI训练的成本节点。
所谓标注,就是给视频或者图像的关键信息点贴上标签,以便让系统认识并在实际操作中做针对性规划。显然,量产车采集的场景基本都是重复的,数据意义不大。专门采集车则比较贵(成本每天6000元-10000元)。
重点是,如何尽量多地搜集到“长尾场景”,即不常遇见,但驾驶了很多次之后,每个人几乎都会遇上的场景(占5%左右)。
在大模型上线前,都是人工标注。1000帧的视频数据,人工标注成本可能达到万元。
而大模型目前最有价值的部分,莫过于自动化数据标注,可能会节约上亿元(取决于替代多少人标注数据)。
特斯拉为了打造一套高效数据闭环系统,自研了超算中心。超算的另一个作用,就是有了基底训练数据——超过20亿公里,就不太依赖新的实际路采了。大模型会改变参数,在电脑里面重建场景,自动进行长尾场景的自我训练。比如采了白天的数据,稍微改一下,就变成黑夜、雨天,或者有司机急打方向盘、急踩刹车造成的混乱等等,都可以模拟。
在超算上运行的大模型,对长尾场景自动进行“预标注”。而后续还要进行人工审核,譬如要把漏标的框标注出来、把标注错误的框删掉、把框的大小统一等。如果大模型预标注做得好,那么后续人工审核工作量就很小了,与采用人海战术对每一个图像要素进行标注,完全不可同日而语。
新的合作方式
数据闭环的工作现在已经分割给外包供应商、大模型平台公司(也可以视为供应商)和车企分别来做。
关键在于,数据闭环能否让车企有效迭代自动驾驶算法,并提升应对偶发场景的能力(这几乎是L4绕不过去的坎)。落实到使用层面,通过多方合作,基于新的标注数据,进行新的训练,实现由数据闭环驱动自动驾驶软件迭代,并通过OTA部署到终端。
很少有车企能够彻头彻尾地自己部署基础大模型,自己搞定应用层,自己设计预标注并实现数据闭环,再驱动算法更新。这即是L4的进化之路,它的技术复杂度要求车企与供应商充分融合式合作,而非传统的供应商“交付”-主机厂应用。
车企过于看重价值链全盘掌握,强调全栈自研,可能会耽误迭代进程。
如果设计一种规则,比如基础层大模型由平台级公司设计,车企负责掌握标注规则,并将后续人工审核交给另外的第三方,拿回标注好的数据之后,自己进行训练。通过任务拆解,让自己处于自动驾驶价值链的核心地位。避免在关键技术上受制于人,也不用被迫接受“全家桶”(即由某个供应商提出软硬一体的解决方案)。
车企对这种方式应该驾轻就熟,现在球踢回供应商这边,要求后者也要主动参与到车企的大模型设计和训练当中,而不必执着于“打包交付”。
目前,虽然上马大模型的车企越来越多,但是已经实现数据闭环,并部署于量产车上的,几乎没有。大家都还在拼“谁先抵达下一个节点”。好消息是,L4看上去并非那么遥不可及了。
现在的问题是,一个主机厂面对好几个自动驾驶系统供应商。各个供应商提供的每一个模块,代码质量不一,工具链可能也不相同。如何检验不同供应商的模块是否存在冲突,目前的工程化还不够成熟。
这就涉及到,新获得的长尾数据,对决策(规划)产生的影响到底是什么。有些新增数据,上了模型训练之后,效果变好(有效应对了该场景),但总体上效率下降。这样的局部改善导致整体变差的情况,需要对全局价值进行一番预评估。这是另外的话题了,不展开。
转移模型到车端
不过有一点需要澄清,大模型部署于超算中心或者云端,但很难部署于车端。因为后者没有那么强的算力,而且车端的数据存储空间也不胜任。大模型的训练也要在超算平台上完成,训练得差不多了(改善可以无终点),就能上车,大模型就必须缩窄成中模型或者小模型。
数据需要压缩,将知识体系(从感知输入到规控输出)转移到轻量级的模型上,后者是车端算力和存储可以承受的。
这其实就是“端到端”的算法。很多人都将“端到端”视为自动驾驶算法的终极形态。所谓“端到端”,即只要有原始数据输入(环境感知),就可以输出结果(操作动作),和ChatGPT类似,中间过程对观察者来说是“黑盒子”。
虽说人类不需要理解决策过程,但人们总担心自动驾驶算法会输出匪夷所思的决策。大量实践结果没问题,也不能打消顾虑。
不过这很像人类驾驶了。熟练司机从眼睛看见,到转方向盘、踩刹车或油门,都是中枢神经在工作,人类没有觉得自己花时间思考了。这就是大脑的“预训练系统”在起作用。
转移模型还有个好处,就是避免了云与车端通讯的时延问题。车端AI反应都是毫秒级,如果指望云端给出关键规划,哪怕有边缘计算加持,通讯也不能在任何时候实时保障。
云端的作用,可以发挥大模型的参数容量优势,完成数据挖掘、自动数据标注等任务。在车端,可以部署分管不同子任务的多个小模型,合并成一个“中模型”,以节省车端计算环节的推理时间,增加安全性。不过车端模型的参数量,要比云端少一到两个数量级。
为了提升ChatGpt的能力,OpenAI在8年间耗费十亿多美元的训练成本。车企大概率不会付出那么高的成本(不过特斯拉超算中心就花了10亿美元)。如何用有限资金,抢占场景落地和商业化的速度(即训练迭代速度),而非一味追求模型之大、算力之强?
既然AI的应用已经走到了利用大模型实行空间(再现物理空间)计算这一步,那么L4就有可能实现。这是所有车企应该具备的能力,无论它们采用什么方式达致这一目的。
汽车变身为行走的计算终端,汽车的革命性形态,已经出现在视野,不再遥遥无期。现在就参与大模型构建和应用,而不是置身事外,就显得比较重要了。