撰文 | 李信马
题图 | 百 度
时隔多年后,百度创始人李彦宏又一次为自动驾驶上车“站台”。
4月15日,他和极越 CEO 夏一平来了一次线上直播。一辆极越01上,自动驾驶系统接管了司机的职责,两人则发挥了人类的强项,全程互动讲解。
在深圳的城市道路上,差不多一小时的旅程中,几乎没有接管,自动驾驶的表现不说超越人类司机,也是相差不大,绝对没有“翻车”。
夏一平的对此评价是“纯视觉地表最强智驾”,李彦宏则认为足以“对标”特斯拉,甚至在中国还优而胜之——“中国它(特斯拉)不太敢开吧。”
特意提到特斯拉,是因为两家车企,有着同样的纯视觉技术路线。这一技术路线是让摄像头成为自动驾驶车辆主要或者唯一的“眼睛”,通过人工智能识别,然后进行自动驾驶。
在自动驾驶的赛道,有多个技术路线。纯视觉的优点是,相比激光雷达、毫米波雷达、超声波传感器等,摄像头的成本相对较低,但缺点就是,摄像头容易受到光照条件的影响。在逆光、起雾、大雪等情况下,摄像头的辨识能力可能就会下降,特斯拉曾经的多起事故,就是在类似的情况下发生的。此外,在生成三维空间上,纯视觉方案是通过二维图像来生成的,在精准度和鲁棒性上“先天不足”。
自动驾驶需要绝对的安全,因此,很长一段时间以来,多传感器融合的技术方案要更具竞争力一些,最大的问题则是传感器价格过于昂贵,业界寄希望于通过技术进步和量产,来将这些传感器的价格降低到足以大规模应用。
有趣的是,人工智能,尤其是神经网络和大模型的发展速度,要比硬件成本价格下降的更快,这也让我们看到了纯视觉方案成为自动驾驶主流技术路线的趋势。
一、引领纯视觉技术路线
在这条路线上,特斯拉可以说是开创者和领头羊。2024年3月是一个重要的时间节点,在13日,特斯拉开始推送 FSD v12.3 的软件更新,特斯拉 CEO 埃隆・马斯克称其是一次相当于大版本更新的“重大发布”。这一版本在算法层面做了较大的改动,从以往依赖手动编码规则和机器学习模型的方法,转向采用端到端的神经网络系统。
从目前的测评视频来看,这一版本在自动驾驶能力上有着明显的进步,已经接近L4级别的自动驾驶。马斯克特意开放了为期一个月的免费试用,足以证明他对这一版本的信心。不过目前在国内,我们暂时还体验不到该服务,而且中国道路环境也与美国有明显差异。
也因此,同样走纯视觉技术路线的极越,可以说是最接近特斯拉的国内车企了。在25日,极越也发布了 OTA V1.4.0 新版软件,并宣布2024年,在百度地图LD(车道级导航)的支持下,极越PPA智驾即将实现全国都能开。
极越的纯视觉采取的是“BEV+OCC+Transformer”(即B.O.T)的技术方案,新版本中,重点升级的是OCC占用网络,让感知能力大幅提升,在达到激光雷达厘米级3D模型刻画的基础上,对障碍物的识别种类再度增加,包括施工牌、围栏、路障、防撞桶等单个静态障碍物,还有道路临时施工的围栏、靠边停靠的故障车辆、临时堆放的大垃圾桶等障碍物。
OCC感知能力的提升,又带动了点到点领航辅助PPA能力的大幅升级,可以应对更复杂的行车场景。比如在路况复杂、临时施工的路口主动绕行和及时刹停,合理规划路线等。在李彦宏的直播中,这些能力也基本得到了体现。
二、大模型带来智驾提升
自动驾驶发展了数十年,为什么纯视觉技术方案的落地速度突然加快?答案是大模型。
研究显示,真正的自动驾驶系统想要达到量产应用条件,至少需要经过约170亿公里的道路验证。原因在于 ,即使现有技术已经能够应对95%以上的常见驾驶场景,但最后5%的Corner Case依旧有可能会出现问题(自动驾驶的Corner case是指模型之前没有见过,会导致模型识别异常的场景)。
一般学习一个新的Corner Case需要收集超过一万的样本,整个周期在2周以上。即使一个团队拥有100辆自动驾驶车辆,24小时不间断的进行道路测试,积累数据所需要的时间也是以“百年”为单位——这显然是不切实际的。
ChatGPT的横空出世,让我们看到了大模型各行各业的巨大潜力,而自动驾驶也在其中。在这里,有关具体的技术就不进一步展开了,引用不久前发布的华为盘古汽车大模型对其效果的描述:“盘古汽车大模型重塑自动驾驶的训练,可将行车数据进行重建,生成能够灵活编辑的虚拟空间,如视频中生成的华为东莞园区的道路空间,可在指定的行车路径中,增加对向行驶的车辆。模型基于超车线路构建不同的光照、天气、建筑,快速生成近百个样本,让模型更好学习如何应对复杂超车场景的Corner case。”
通过大模型快速进行真实场景还原,并各种复杂场景生成Corner case用于模型训练,盘古汽车大模型让自动驾驶的Corner Case闭环周期从两周以上缩短到两天内。
作为吉利与百度合作推出的高端汽车品牌,极越的自动驾驶能力来自百度,25日当天,百度也发布了百度Apollo自动驾驶视觉大模型VTA(Vision Takes All),大模型大幅升级了自动驾驶的动静态检测、时序跟踪、实时建图、场景理解等能力,据百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮所说:“基于大模型,百度打造了行业第一的智驾数据生产线、LLM赋能的自动驾驶数据索引,与此同时,通过生成式AI技术,百度也具备高效处理长尾数据的能力,这些都是推动端到端自动驾驶技术发展的重要数据引擎。”
而大模型对自动驾驶落地很重要的一点在于,在硬件不升级的情况下,依旧可以靠软件升级来提高智能水平,这对本身成本就较低的纯视觉路线来说,无疑是很有利的。相比其他传感器,摄像头的成本最低,也就是说最容易得到普及和形成规模效益,而搭载纯视觉解决方案的车辆越多,成本和性能优势就也越明显。
在此,我们摘录部分李彦宏直播对话中的描述:
“这个因为是online upgrade,所以它会越来越智能,越来越聪明。”
“一旦跑起来的话,很多数据再反馈回来正循环。这个车,应该你每天开都是一个新版本的车,是这种感觉,就像每天买了一辆新车一样。”
“以后它还学你的各种各样信息,你的喜好,会完全变成一个特别懂你,特别了解你的机器人。”
当然,硬件上省的钱,未来可能会以软件收费的形式花出去。比如特斯拉的 FSD ,目前在美国的售价为1.5万美元,或者每月199美元。但在自动驾驶发展的长期预想中 ,对个人收费主要存在于过渡阶段,无人共享出租车才是最可能的行业最终形态。
在这个领域,百度和特斯拉同样位于领头羊的位置,前者的萝卜快跑项目在稳步推进,后者也刚刚透露了新的计划进展。而纯视觉,综合来看,是目前最接近距离实现这一目标的技术路线了。
图片来源:X