图森L4卡车被曝即将上海开跑,CTO王乃岩:辅助驾驶路线做不了L4,系统冗余才是正解

腾讯网   2023-08-07 17:38:46

图森L4卡车被曝即将上海开跑,CTO王乃岩:辅助驾驶路线做不了L4,系统冗余才是正解

东海大桥,连接洋山港与上海市,被称作上海“生命线”。

路况尤其复杂,再加上临海,常常出现团雾使视野受限,娴熟的卡车司机也不敢掉以轻心。


(资料图)

然而在川流的重卡之中,已经有“无人”卡车成规模、不间断的运行。

多传感器融合感知的系统其实并没有受到相对恶劣天气的影响,人类的双眼难以分辨两三百米以外的车辆,但是系统仍然可以在将近200米到300米的范围之内工作,甚至能准确识别120m开外的塑料瓶:

上海自动驾驶卡车的落地速度出乎意料,而更加意外的,是这些新进展背后的玩家:

图森未来

重启之后,外界自然而然认为重点转向L2。但实际上,L4图森没有停下,还分享了完整的进展和技术方案。

图森如何做L4?

图森L4方案的架构,强调与辅助驾驶L2、L2+的区别,CTO王乃岩认为最核心的点应是可靠性,包括最底层的车辆到上层的系统和传感器,以及最上层的冗余设计和分析的算法模块。

整体来看,图森L4架构分为3层。

首先是车辆。整车配备了冗余转向系统和冗余制动系统,保证在单路失效的时车辆仍然可控制。

系统设计层面,有两套完全独立的系统。主系统是L4驾驶的主力,使用了高算力的平台,搭配全套传感器可以实现完整的L4驾驶的功能以及降级的功能。与此同时还有一套完全独立的备系统,使用了一个算力没有那么强,但是可靠性很高车规级的芯片,在有限的传感器条件下,只负责主系统失效的降级功能。两套系统都实现完全独立的供电。

系统运行模式方面,除了正常的L4级别自动驾驶之外,设计了两种最小风险状态,分别是车辆在侧后方感知以及转向系统高可用的时候,实现应急车道上靠边停车,不干扰正常车流的行驶。在非常极端的情况下,也设计了相应的在当前车道安全刹停等待救援的模式。

在冗余L4系统架构下,图森首次对外详细介绍了不同模块的技术细节,包括6大部分:

视觉感知

激光雷达融合感知

GPS卫星定位

预测规划

规控系统

仿真验证

01.视觉感知方案

三种波段的电磁波,就是可见光、红外光和毫米波,分别对应自动驾驶常用的三种传感器:相机、激光雷达和毫米波雷达。

除了感知电磁波波段不同之外,感知方式也有所不同。毫米波雷达和激光雷达,是主动发射电磁波然后去通过接收回波的方式来感知场景中的障碍物,好处是对于周围物体的3D信息和几何信息有非常强的感知能力,而相机因为是被动接收的传感器,并没有办法去做这种主动的感知。

但是在分辨率和语音信息层面,相机承载的信息密度是大于毫米波雷达和激光雷达的。另外,毫米波雷达在面对恶劣天气雨雪雾的时候,鲁棒性是远比激光雷达和相机要强。

所以图森根据传感器不同的特点和不同的优劣,设计了全类型传感器高可靠冗余的方案。

首先是纯视觉方案。

现在主流的做3D目标检测的方法是BEV,但是会遇到以下两个问题。

长距离的BEV的空间,需要消耗大量的计算资源;另外算法设计也没有考虑到相机之间的互补的冗余,一个算法对于当前可能只会检测出对物体有一个检测的结果,如果出现了漏检,这个目标就在整个系统中消失了。

针对第一个问题,图森提出了基于物体多视角3D检测的框架。思路是在环视的摄像头输入之后,对于每个相机都做一个2D的检测。单摄像头的2D检测比起3D检测更成熟,所以具备高效、冗余和准确三个方面的优势。但比起BEV,单摄像头画面检测对画面内车辆被遮挡、截断等问题处理的又不够好。

于是图森又提出一个Spase Attention通过计算不同摄像头画面的关联去识别。同时,其还对Sparse Attention计算复杂度高的问题进行了优化,先是在低分辨特征图上操作,减少计算,再通过不同方案的传感器融合、时序融合,解决降低分辨率带来的对小物体识别差的问题。

02.激光雷达融合感知方案

长久以来激光雷达的优势被认为是可以做近距离精确的感知。现在激光雷达普遍已经能够达到200米的探测距离。

但如果直接把80米内的是个别算法给应用到200米的范围之内,就会发现无论是显存还是延迟的消耗都特别大,在研发上是无法承受的。主要是因为点云特征图的大小会随着距离呈平方式的增长

进一步分析,激光雷达通常是越远的地方越点云越稀疏,在远处有大量的空白的地方,如果套用BEV方案,会进行“卷空气”的操作,是没有意义的。

为了避免这个问题,图森采用稀疏的方法取代原来致密的卷积操作

所谓稀疏卷积,是一个自定义的OP,NVIDIA开源了自定义的线性代数计算库cutlass,然后也开放了存算异步的API,于是图森基于cutlass开发了一套SPConv的开元库。

另外一种特征提取的方式是Transformer,借助Sparse Transformer的思想,在有点云的地方去划分窗口。因为这个窗口是稀疏的,所以在每个窗口内将点形成的特征聚拢起来,在每个窗口里会使用Transformer进行特征提取。窗口之间也用Shifted window这种技巧来进行信息交换。

检测层面,全稀疏范围里面激光雷达只能扫到物体的表面,中心处是没有特征的。针对中心特征缺失问题,图森的方法是通过先分割再检测和整体框架,提高了感知精度。

有了更高的精度之后,图森未来下一步的目标,就变成了降低激光雷达延迟、提高冗余能力。

激光雷达的延迟与点云数量高度相关,点云越多延迟也就越多。但图森未来发现,激光雷达得到的图像内,只有10%左右是需要感知的道路环境,其余都是街外的静止背景和已经检测完的道路,所以通过去除背景的方式,将6帧叠加的延迟做到了与单帧相关。

有了更高效率、更低延迟的检测能力,激光雷达对障碍物的检测时间也就更长,时序点云序列也会变得更加冗余。

总结一下全稀疏Lidar检测器的特点,首先避免了卷空气的问题;其次是一个全动态的网络,计算成本是随着点云的增加而增加的;第三,它是一个3D视角下的检测,这样对于高度上有重叠物体的检测会更加的友好,显然比较适合于长距离,在使用了去除背景策略之后在多帧的检测当中会更加的高效。

03.卫星定位系统

首先需要明白,卫星导航最原始的观测包含测距码以及导航电文。在导航电文里面显示各种各样的参数,可以利用这些参数按照一定的公式获得卫星在全局坐标系下的位置。

通过测距码可以得到接收机相对于卫星的一个距离,简称“卫地距”。对于“卫地距”的描述可以有伪距码以及载波相位两种方式。

至于定位,在已知三个卫星坐标的前提下,并且已知对应“卫地距”,可以在全局坐标系下唯一确定接收机的位置。

所以在实际的使用当中通常都需要4个观测方程,至少4个观测方程通过联历方程组去解得唯一的位置,解的这个参数便是接收机的位置XYZ以及接收机的硬件延时。

思考一下自动驾驶定位系统的目标:首先对于侧重点来说,传统的组合导航是一个绝对定位的一套系统,他需要在全局坐标系下给出一个确定性的结果。

但对于自动驾驶系统来说,是一个相对定位的过程,这个相对定位可以是相对于在线建立的地图定位,或者是离线建立的高精度地图去定位。更关注当前自测的位置与静态的障碍物,比如说灯杆、标牌、车道线以及动态的NPC相对位置。

那所以对于自动驾驶系统来说,其实可以用一种亚分米级精度的输出,对于规划与决策系统更友好。

与传统的基于粒子滤波定位框架不同,图森采用了分层的贝叶斯思想,在估计位置的同时,同时对于每一种观测估计了置信程度。

比如,经过多个高大的路牌、收费站时,卫星观测会受到影响,车辆会在这个里面做一个短暂的停留,全遮挡的工况下所有卫星观测是缺失的。这样的工况下在保证鲁棒性的同时通过融合多模态传感器,然后基于鲁棒粒子滤波算法可以给出一个准确的位置估计。

04.预测算法

自动驾驶的行为预测一直使用基于深度学习的算法,但每一个深度学习算法都在优化着特定的模型指标。

如果在某些指标上做到了最优,但也依然不是最好的预测输出。

图森提出来做任务对齐。这个主要是基于一个观察:海量的预训练数据赋予了预测模型强大的能力,现在模型可以给出多模态的边缘或者是联合概率分布的预测,但是这里的概率值他反应了数据里的每一个数据出现的频率。问题是,某些case的概率分布并没有和下游模块做对齐,那应该怎么做呢?

最简单的方法是做偏好学习,核心是为下游任务重新调整优化的权重。但除此之外图森还提出来对多阶交互进行解耦。

另外,在预测算法中,还引入了多阶博弈交互的概念。直白的解释:零阶交互是指在做决策的时候不用考虑任何人的想法,一阶交互是指在做决策的时候考虑其他人的想法,二阶交互指在做决策的时候,会去预测你预测了我的想法…

为什么需要?比如在一个前方有静止车的场景里,左侧有源源不断的车流,如果只做零阶交互,预测左侧车流的时候不去考虑自身变道意图,就始终给不出左侧车流减速的轨迹,只能给出他们匀速往前的轨迹,会导致加塞失败最后停止在静止车前。

而同时使用一阶交互,考虑自身变道的意图,在使用偏好学习做微调之后,可以成功的给出左侧车流减速的轨迹,这样可以及时的变道到左侧的车流当中。

05.规控系统

图森的方案是耦合预测还有决策规划,对于每个自车规划的意图轨迹,会首先使用博弈论模型去预测车辆可能的反应以及多种可能反应的概率分布。

传统的方案当中,规划的轨迹是固定的,自车规划任何一个轨迹,要求对于所有其他车辆可能的反应都是安全的,这样的一个评价方式通常会产生非常保守的结果。

图森的方案,会在对方让行的情况下,选择抢行。

规控模块中,业界非常关心的问题是时空以及横纵联合的搜索与优化,传统的轨迹规划会首先固定横向行为去优化纵向行为或者是固定纵向行为优化横向行为,限制了空间会导致规划的结果丧失敏捷性,在一些非常危险的情况下有可能使得本车规划不出安全的轨迹。

图森的方案是耦合的横纵行为的优化,同时也要保证规划的轨迹能够满足非常复杂的车辆动力学模型。具体而言使用一个参数化的控制序列,对于每个参数所生成的自车轨迹会评估他的好坏,参考因素包括安全性、效率、交规、交互,等等。

由于现在的轨迹是由控制策略参数所确定的,因此优化目标是控制策略参数的一个函数,那通过对这个参数进行优化,就可以同时优化横向和纵向的行为以及如何和其他车辆交互。

可以举例说明传统的规划控制解耦和耦合规划控制的区别。

如自车想绕过前面比较大的障碍物,传统的方案可能规划鼓励的生成目标轨迹,控制的独立追踪目标轨迹,这两者之间在一些情况下会产生比较大的偏差。当偏差比较大的时候,虽然规划的轨迹觉得自己绕过障碍物,但是控制的过程中造成比较大的误差使得自车生成的轨迹还是和障碍物发生了刮蹭。

而反馈控制和规划耦合的系统,会实时的根据当前测量的状态重新规划和控制,从而保证了这个大范围绕障碍物过程中侧向间距安全性。

06.仿真验证模块

目前业界常做的仿真测试是做规控。只运行规控模块和底层的车辆模型,对于低级别的自动驾驶系统可能是可行的。但是图森未来的感知系统及规控系统,这种简单的PnC方针测试已经不能满足需要。

所以图森在仿真测试中采用到了端到端的仿真测试的框架:将整套的自驾pipeline作为一个黑盒进行完整整体的测试,属于更高级别的测试。

图森端到端仿真测试系统,首先是一个离线闭环系统,目的是为了测试整套的算法流程以及自驾系统,同时支持多种场景测试,一种是支持真实场景的导入,也支持人工去编辑一些场景,编辑出一些长尾的conor case。

在工程上图森端到端仿真系统架构主要由两部分构成,一部分由仿真引擎及仿真底层物理世界引擎和车辆动力学模型构成的仿真系统,另外一部分是由运行整套算法的域控以及一些虚拟的车辆控制单元组成,两套系统通过传感器的输入进行通信。

图森未来的仿真引擎,以及仿真任务调度器上面,循环运行一遍所有的离线仿真场景只需要小于30分钟,图森统计过每小时的运行成本小于10元。

图森如何看待L4?

图森今年业务“重启”,外界普遍认知坚持做高阶自动驾驶的侯晓迪出走,其L4业务陷入不确定。

而图森在局势初定的首次公开亮相上,也专注讲了将智能辅助驾驶落地的路线。

一度更加剧了猜测:图森不做L4了?

但这次图森中国的CTO王乃岩正本清源:

L2和L4都在做,并行推进,并且都由他在负责。

具体的进度上,图森确认在两个月前拿到了上海市首批“无人”卡车测试许可,目前正在最后的确认阶段。实际上,图森已经在类似考核的演示项目中,证明了在高速场景下已经具备“驾驶室”无人的能力。

所以目前图森未来的L4业务现状总结一下,是这样的:

首先在商业落地进度上,即将开启全无人测试,而且也会实际接商单。

技术方案上,图森L4目前还是坚定的走多传感器融合线路,以及前装量产车的路线。图森之前在L2相关路线活动上发布的“大感知盒子”TS-Box,其实也在应用到L4路线,比如王乃岩介绍到,图森的一个主要优势就是自己对传感器硬件的深入理解和工程化能力。

这体现在图森在TS-Box中除了集成计算模块,还自研了图像处理等算法,相当于直接节省了相关功能采购的成本。图森L2商业化的竞争优势,以及L4的落地进度,都得益于图森的技术能力。

而以现在的情况来看,王乃岩估计,L4自动驾驶卡车,三到五年之内就会有大规模应用。

所以图森未来这次展现自己的L4实力和进展,不但是向外界自证“健康”和“健壮”,也是向自动驾驶卡车行业传递这样的信息:

L4不会停下发展的脚步,只不过这条赛道的未来,只向有强大技术实力的玩家敞开。

— 

【智能车参考】原创内容,未经账号授权,禁止随意转载。

精彩推送