300″ | 将世界压缩入模型:自动驾驶大战决赛缩圈,谁能吃下万亿具身智能蛋糕?
原创 华东PE搬砖-Davis,本文仅用于学术分享,如有侵权可联系删除


相比传统的供应链型造车老炮,小鹏汽车的创始人何小鹏更像是一位技术极客。他公开表示:“未来的汽车将是「具身智能的汽车」,汽车产业和人形机器人产业将相辅相成、互相促进。”
并推出了IRON机器人走出性感猫步,刷屏科技圈,一度让观众怀疑这是一位套了机器人皮套的真人演员。


然而不难发现,汽车圈和具身智能的“勾兑”已相当普遍。所以摆在我们面前的问题是:
现在的智能汽车到底经历了怎样的发展历史、又怎样在底层技术上和具身智能拥有了高度的相通性?
核心在于“大脑”。智能汽车自动驾驶技术和具身智能大脑技术,两者之间的技术架构一脉相承,产业界将其形象地比喻为“汽车就是4个轮子的具身智能”。汽车与机器人的硬件在本质上架构极为相似,都是摄像头+雷达+电机控制,核心的区别可能就在于汽车只需要在道路场景控制4个轮子,而机器人需要在工作场景控制数十个关节。
自动驾驶进入产业界以来,已经发生了3.5次主要的技术迭代。
看懂这3.5次技术迭代,并认识到即将到来的第4次、也是最为重要的技术迭代,你对于智驾与具身智能进入大规模产业化的时间节点与可行性将会有一个更加深刻的认知。


第1代-智驾开山:规则驱动的智驾模型
规则模型将驾驶过程视为一系列离散状态的转换过程,遇到一个全新的场景,工程师就需要编写一套新的规则代码。
简单比喻说,规则模型将驾驶过程拆分为了高速场景、城市道路场景、十字路口场景、转盘场景等一系列场景,而自动驾驶就是识别自身进入了哪个场景中,并根据场景切换驾驶策略。


也正是这一时期,高精度地图成为了规则模型识别场景的重要基础设施。如果汽车能精确知道自己在地图中的位置,那么匹配对应的规则将会简单许多。
然而,这一技术路线受到“长尾场景无限”问题的困扰。因为驾驶并非只有高速、城市道路、十字路口等简单场景,还存在“一个老奶奶在斑马线前大跳霹雳舞”“路边飞来一个足球下一秒就要有个小孩从盲区冲来实现超级鬼探头”等极端长尾场景。
要命的是,针对每一种长尾场景,都需要一帮头发不剩多少的工程师来针对这些极端场景写代码,来定义汽车在这些场景下的驾驶规则。
智驾厂商很快发现,这样来编写规则场景,根本写不完。·不光写不完,还需要养着一支庞大的工程师队伍,来应对越来越不具有价值的边缘场景,呈现极为明显的边际效益递减。更不用说,持续更新订阅高精度地图,也是一个极为昂贵的选项。
因此,当前几乎仅剩百度的萝卜快跑仍坚持该路线。百度大力飞转,将规则模型做出了还不错的效果,但是何时能进入L4,那估计工程师头发还需要再少一些。


第2代-神经初现:VA端到端模型
为了解决规则模型工程师团队需要无限写代码的问题,特斯拉FSD最早发布了端到端智驾,行业上俗称“无图智驾”。


端到端的核心是一套神经网络,并通过大量真实的驾驶视频数据进行“模仿学习”。然而该技术路线很快也遭遇难以解决的问题,就是神经网络“黑箱问题”以及长尾场景数据获取问题。
也就是说,如果系统出错,工程师无法识别神经网络中具体什么环节出现问题,很难针对性地定位真实原因,并进行针对性训练。
更要命的是,极端场景的训练数据非常缺乏。曾经有一个观点声量很大,那就是特斯拉在路上跑的车最多,能够采集的数据也最多,那么特斯拉的智驾能力将会远远超越其他车企,形成对其他车企智驾系统的降维打击。
然而现实是,特斯拉的表现并不尽如人意。核心原因就是长尾场景的数据获取问题——工程师很难通过真车驾驶采集各种车祸的数据,这些数据的生产效率极低。
行业普遍认为,端到端模型能够解决99%的驾驶问题,但是最后1%的场景开几十亿公里都无法找到。比如有些司机能把车开到树上,我们又如何能够指望有几百个司机都把车开到树上,从而形成一个防止车辆上树的训练数据集呢?


第3代-边做边说:VLA端到端模型
针对端到端模型中的黑箱问题,聪明的工程师们灵光一闪,在VA神经网络中加入了LLM大语言模型,形成了VLA,使得智驾系统能够同时输出驾驶指令以及“为什么要这么驾驶”的思维链过程。
这一架构在训练中除了喂给系统驾驶画面,同时也提供了真人司机在驾驶过程中的用文字描述的决策逻辑过程。如下图:


边做边说:在画面上标注“要牢记在斑马线前停下”,让智驾系统学习画面与文字间的关系
通过这一过程,VLA模型能够帮助工程师精准定位模型决策的具体问题,因为系统将会说出自己驾驶决策的依据,帮助工程师找出问题、恢复发量,以便进行针对性的场景训练。



此外,LLM大语言模型拥有推理能力,因此汽车在驾驶过程中拥有了非常强大的逻辑推理过程,从而提高了智驾系统应对复杂驾驶环境的能力。
然而VLA同样存在难以解决的问题,核心在于VLA需要的算力巨大,一般需要4000TOPS以上的算力能够运行,将VLA系统部署在车端必须通过蒸馏方式缩小模型规模,从而影响了模型的真实性能。
而当汽车面临紧急状态时,系统没有时间进行思维链的推理思考,因此只能回到VA流程进行“条件反射”式处理。



3.5 代-黑客帝国:基于世界模型合成数据的VLA端到端模型
然而,以上的技术路线都没有解决长尾罕见场景数据难以获取的问题,因此通过世界模型合成数据成为了当前智驾系统最核心的技术解决方案。
世界模型是什么?其实当前并没有一个明确的定义。但是世界模型的其中一项能力已经被行业认可,那就是生产训练数据的能力。



上图所展示的视频由世界模型生成(特斯拉的展示画面),360°环视摄像头数据全部能够匹配
这一技术路线算法极难,由世界模型生成的训练数据需要高度符合物理世界的真实规律,不能出现穿模、幻觉、违反物理规律,且360度摄像头数据需要完全匹配,难度远高于一般的视频生成模型。



上图的行车视频全部由世界模型生成,工程师可以任意设定天气、其他交通参与者行为等参数
这一方案国内最早由华为ADS 4.0正式上车,其他厂商也在大规模跟进,包括小米HAD增强版、地平线HSD、小鹏NGP 5.4、理想智驾等。预计明年开始,世界模型将会成为自动驾驶行业极为重要的产业话题。



第4代-人造心智:原生世界模型时代
当前,智能驾驶算法正在向原生世界行为模型路线(WA,World Action Model)演进。
2026年,华为将发布第一款基于原生WA的智能驾驶模型——WEWA架构乾崑智驾。WE是云端世界引擎,用于合成难例场景进行数据训练;WA是车端世界行为模型,实现强先验能力的仿生决策。
WA的本质是通过对未来关键画面信息的预测,来指导汽车的驾驶行为决策。世界模型WA决策逻辑模拟了生命体的“心智模型”,是一种接收信息输入后,在其内在建立起对整个世界/环境完整认知的模型,该模型能够重建、预测未来变化。
就像是我们看到路边飞来一个足球,我们能够根据过往经验,预测到路边可能冲出来一个小孩。我们正因为有了这样的预测,我们将车速降了下来。


AI泰斗LeCun说,未来几十年AI研究的最大挑战是「预测世界模型」。因为让机器拥有对世界规律的预测,不仅仅能用于驾驶,也同样能用于具身智能:
我们之所以会叠衣服,因为我们预测到了我们的动作与衣服形态之间的关系;
我们之所以会折纸盒,因为我们预测到了纸盒形状与手部动作之间的关系;
我们之所以会做菜,因为我们预测到了调料、火候、食材与味觉体验之间的关系……
GPT的能力是预测下一个文字,而世界模型的能力是预测行为与画面之间的关系。两者在底层原理上并没有太大的不同。
L4和实用具身的chatGPT时刻,也许离我们并不遥远。