Title
您当前的位置: 首页 > > 文章详细
融合激光雷达端到端胜过纯视觉,分段式优于一段式
发布时间:2025-08-12

  很难给一段式(全局式)端到端一个严格的定义,VLM/VLA的核心是一个基石大模型,通常参数在20-40亿之间,大模型不擅长输出精确的waypoint坐标数据,VLA的轨迹规划通常用diffusion或MLP (Multi-Layer Perceptron,多层感知机)完成,貌似也是分成了两段,但应该可以归入一段式的领域,因为核心是单一大模型。传统分段式端到端最典型的特征是拥有统一的骨干网。分段式通常都是激光雷达与摄像头融合,一段式一般都是纯视觉,因为目前将视频分成patch再转换为token的技术非常成熟,资源很多,但将点云转换为token的研究很少,一段式可以默认为纯视觉。

  UniAD管线

  

  图片来源:论文《Planning-oriented Autonomous Driving》

  以今天大部分人的端到端视角来看,UniAD根本不算端到端,它包含四个基于Transformer解码器的感知预测模块以及一个规划模块。多组时间序列上查询向量(query)用于连接整个架构以及学习多个智能体与周围环境的交互。它包含了更多的任务以辅助下游规划,包含检测(Detection),跟踪(Tracking),地图生成(Mapping),轨迹预测(Motion Forecasting),占用栅格预测(Occupancy prediction)与规划(Planning)。

  具体而言,多个环视摄像头采集的图像序列通过CNN骨干网特征提取器转化为图像特征,再通过 BEV(Bird’s-Eye-View,鸟瞰图视角)编码器将图像特征转化为 BEV 特征,它依然使用CNN骨干网,UniAD-S 使用ResNet-50,UniAD-B使用 ResNet-101,UniAD-L使用 VoVNet 2-99,使用BEVFormer的方式转化为BEV特征向量。

  

  图片来源:小米汽车论文《ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation》

  小米汽车列举了几种常见的端到端,a是传统经典端到端,即分段式模块化端到端,b是基于VLM的一段式或全局式端到端,c是能够落地的快慢双系统,VLM仅仅是辅助,也就是将VLM的推理空间信息输送到经典端到端的动作空间,最终的动作轨迹预测优化未能与VLM的推理互相结合,小米提出了第四种即d,将生成动作轨迹规划(预测)模块与VLM之间展开反向传播。

  端到端测试方式

  

  图片来源:网络

  对比传统分段式端到端与一段式端到端有两种测试平台,要么开环测试要么在仿真器上“闭环测试”,这种闭环测试和传统的真正的闭环测试实际差别很大。而开环测试是不能真正看到自己的预测指令执行后的效果,是一个完全静态的测试,没有反馈。

  开环测试主要有两个指标:

  一是3秒内平均L2 距离:通过计算预测轨迹和真值轨迹之间的L2距离来判断预测轨迹的质量,

  二是3秒内平均碰撞率Collision Rate:通过计算预测轨迹和其他物体发生碰撞的概率,来评价预测轨迹的安全性。

  常见的是基于nuScenes数据集的开环测试,相对比较简单,目前学术界用的越来越少。目前学术界用NAVSIM的越来越多,NAVSIM是德国图宾根大学、上海AI实验室、英伟达、南洋理工大学、博世、Vector研究院、多伦多大学和斯坦福大学联合打造的基于数据驱动的自动驾驶车辆仿真器。

  数据来源:小米汽车与华中科技大学论文《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》

  小米汽车与华中科技大学的ReCogDrive模型架构

  数据来源:小米汽车与华中科技大学论文《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》

  小米汽车与华中科技大学的ReCogDrive模型架构,采用InternVL3-8B,这个VLM有80亿参数,远超目前常见的20-30亿参数,即使20-30亿参数都很难落地,80亿就更不用说了,和一些古老的分段式端到端相比,成绩相当不错。

  

  数据来源:小鹏汽车首篇论文《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》,用导航增强后,PDMS的得分仍然低于小米汽车的ReCogDrive。

  

  数据来源:理想汽车论文《TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving》

  上图中,V代表视觉,L代表激光雷达。ReCogDrive和一些比较新的分段式样端到端比就差了不少。TransDiffuser使用的图像编码器是ResNet34,参数量是2180万,远低于大模型动辄几十亿的参数。

  理想汽车的TransDiffuser模型架构

  

  数据来源:理想汽车论文《TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving》

  理想汽车的TransDiffuser模型架构,主要是BEV感知加了一个去噪音扩散解码模块,激光雷达和摄像头融合做得非常好,这也是目前PDMS成绩最优秀的模型。

  第二名的TrajHF模型框架,也是理想汽车研发的,不得不说,理想汽车的研发能力太强大了。

  TrajHF模型框架

  

  图片来源:理想汽车的论文《Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback》

  目前VLA成绩最好的是加州大学洛杉矶分校提出的AutoVLA,即论文AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning。

  

  AutoVLA的NAVSIM的成绩,在零样本情况下成绩很低,只有80.54,经过增强学习微调后大幅度提高,达到89.11。

  AutoVLA模型架构

  

  图片来源:论文《AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning》

  AutoVLA训练流程(采用了Qwen2.5-VL的30亿参数版本)

  

  图片来源:论文《AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning》

  虽然目前一段式不如分段式,但恐怕一段式才是发展方向,因为从商业角度看,一段式可以站在巨人的肩上,使用阿里、谷歌、微软和META开发的VLM大模型,不仅大幅降低研发成本,还能快速迭代。同时一段式不需要复杂的传统感知算法,也会显著降低研发成本。

  免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

上一篇:
康瑞新材IPO前补税,朱卫夫妇套现+分红超1亿元
下一篇:
恒小花:AI人工智能未来发展预测
Title