Title
您当前的位置: 首页 > > 文章详细
百度智能云四轮驱动,加速VLA智能驾驶量产落地落地
发布时间:2025-09-09

随着智能驾驶的普及,用户需求从“能用”升级为“好用”,对系统智能化水平与人性化交互能力提出更高期待。在此背景下,智能驾驶模型也随着技术进步持续迭代,逐步从依赖人工规则的“硬编码”模式,向融合数据与智能的“自适应”方向演进。

早期的智能驾驶主要依靠规则驱动,工程师们通过编写大量代码和设定具体规则来搭建驾驶逻辑。这种方式虽能在简单场景下实现基础功能,却存在显著局限:其一,面对极端罕见的长尾场景时,需工程师逐一针对性编写规则,研发效率低且场景覆盖有限;其二,感知、决策等子系统独立运行,缺乏全局协调,在复杂交通环境中难以灵活应对多元路况。

后来,数据采集技术、算力基础设施与算法理论的进步,催生了端到端范式的突破。该范式以“数据驱动+全局优化+场景泛化”为核心,通过采集百PB级高质量标注数据构建场景认知,依托数千张计算卡的算力集群支撑模型训练收敛,实现了从感知到决策的直接映射,大幅提升车辆对不同场景的适应能力。但端到端范式本质依赖“数据+算力”的规模效应突破传统规则限制,对数据储备与算力底座提出更高要求,推动行业在数据闭环建设与智算中心部署上持续投入,推动技术基建向“大规模、高质量”升级。

如今,VLA(视觉-语言-动作)范式作为智能驾驶向高阶智能发展的前沿方向,正融合多模态融合(整合视觉、语言及动作指令等多元信息)、思维链推理(模拟人类认知逻辑进行复杂决策)、双脑协同(决策与控制系统高效配合)以及强化学习(通过与环境的交互持续优化策略)等技术,通过技术栈的深度融合与全栈优化,进一步提升驾驶的安全性和流畅性,突破端到端范式在场景理解深度和决策合理性上的潜在瓶颈,推动自动驾驶向“类人智能”的泛化能力与可靠性加速迈进,真正具备应对复杂交通环境的可靠能力。

随着智能驾驶技术向高阶演进,VLA模型凭借多模态融合与端到端决策的优势,已成为实现L3及以上高级别自动驾驶的关键路径。然而,VLA模型的开发、训练、部署和迭代也面临巨大挑战,如算力消耗极大、数据规模需求惊人、模型优化难度高,以及工具链整合复杂等。在此背景下,百度智能云依托AI领域的长期积累,构建了覆盖算力、数据、模型、工具四大维度的全栈解决方案,为车企及自动驾驶公司的VLA模型研发及量产落地提供有力支撑。

在近期的2025百度云智大会AI+汽车专题论坛上,百度智能云副总裁、百度智能云汽车业务部总经理高果荣专门分享了“四大引擎推动VLA智能驾驶落地——算力、数据、工具、模型加速VLA开发迭代”的实践与思考。

1、高性能算力引擎:构建VLA训推坚实底座

VLA模型的训练,尤其是涉及多模态融合、强化学习(RL)微调阶段,对算力资源有着极高要求。其训练过程通常分为多阶段:

视觉-语言模型预训练:需消耗10万+ GPU小时;

行为克隆初始化动作策略:需消耗5万+ GPU小时;

RL微调与人类偏好对齐:作为算力消耗的主力,占比高达总算力的60%-70%,需消耗20万+ GPU小时,是传统监督训练的3-5倍。这源于RL需在仿真环境中大量“试错”以优化策略。

在推理端,VLA需同时处理视觉感知(占用40%算力)、语言推理(占用30%算力)、安全监控(占用20%算力)等多种任务,且通常无法分时复用算力,对推理效率和资源管理提出了很高的要求。

针对这一挑战,百度智能云推出了百度百舸AI计算平台5.0。该平台内置自动驾驶模型专项加速能力,通过高性能AI基础设施和高效资源调度,实现AI工程全周期的极致提效。平台支持昆仑芯云服务器及超节点、GPU云服务器等多种算力形态,并配备分布式缓存、大规模HPN、弹性RDMA、高速VPC等高性能存储设施与网络设施。尤为突出的是其领先的模型训推加速能力,预置了80+涵盖大语言、多模态、智驾、具身智能等热门模型,实现了LLM训推加速20%+,多模态模型加速30%,对某些典型的智驾模型加速达到100%+。例如,针对SparseDrive、UniAD等典型智驾模型,通过深度优化如合并数据拷贝、reduce操作优化、自定义算子设计、多机扩展比调优等策略,使模型迭代速度提升了70%-100%。

依托自主创新的昆仑芯芯片,今年发布了超节点服务器架构。实现单节点超强性能,满足VLA训推对高密度算力的需求。其32卡/64卡配置实现了更快的机内通讯,使卡间互联带宽提升8倍,单机训练性能提升10倍,单卡推理性能提升13倍,为大规模VLA训推提供了强大且自主可控的算力支撑。

2、智能数据引擎:驱动VLA数据高效采集与动态优化

作为训练VLA模型的核心燃料,数据质量与规模直接决定着模型的能力边界。VLA数据处理需要构建海量“视觉-语言-行为”三元组数据集,数据量达万亿token级;从原始数据到可用训练集的转化过程,涉及严格的清洗、对齐与标注环节,往往需要千卡规模的计算集群持续运行数周才能完成。为进一步覆盖更多长尾场景、提升模型的泛化能力,高质量合成数据的引入也尤为关键,其不仅能弥补真实数据在复杂场景覆盖上的局限性,还能通过可控的场景生成有效扩展模型的经验边界。

在此背景下,深耕智能驾驶数据领域的百度智能云,构建了“智能时代基础数据”能力,为应对上述挑战提供了有效的解决方案:

1)高精度地图与高效标注:依托覆盖全国高速公路及8个城市的45万+公里高精地图数据,百度通过整合GNSS、Camera、Radar与LiDAR等多源车载传感器采集数据,创新性地实现了与高精地图的自动化匹配与智能标注。该技术体系将标注人力投入减少了80%,数据交付时效压缩至传统流程的1/5,显著缩短了从数据采集到模型训练的周期。

2)LD地图与精准语义建模:依托丰富语义信息,百度LD地图为VLA训练提供高质量语义数据,从“推理先验赋能”与“强化学习真值供给”双维度驱动技术升级。在推理层面,LD地图语义作为VLA模型的“先验知识库”,使决策与规划准确率提升23%。简单场景下,依托地图标注速度、感知输入等,通过单步推理实现一次性前向推导,免去多轮思考延迟,快速输出动作指令;非直觉复杂场景下,融合“车辆自身视觉语义”与“车道级导航路径”,构建“视觉+地图要素”问答对,以思维链形式完成慢思考推理,最终输出Action。在训练层面,LD地图作为强化学习真值载体,提供人类驾驶的决策、速度、轨迹等经验数据,构建高精度奖励函数,加速VLA模型训练迭代,推动自动驾驶系统在开放场景下的泛化与安全能力跃迁。

3)数据合成破解场景采集困局:在VLA模型的训练过程中,部分复杂场景的数据采集因成本高、效率低且场景单一而成为关键挑战,例如高速路上的溢洒物(如纸箱、树枝)等偶发但需重点应对的场景,传统采集方式受限于道路封闭难度大、摆拍场景重复性高,难以满足模型对多样化、真实化训练数据的需求。针对这一痛点,百度智能云推出数据合成技术,通过“场景重建+模型生成”双路径,为VLA训练提供高效、定制化的场景数据支撑。

具体而言,数据合成技术包含两种核心方式:一是基于采集数据场景重建后修改,通过3D GS技术结合数据模型对真实采集的单点场景进行高精度重建,还原道路环境的基础要素(如车辆、交通信号灯、绿植及建筑等),再基于具体需求调整场景参数(如光照、天气、交通参与者行为);二是基于世界模型生成场景再加工,依托预训练的世界模型,通过自然语言Prompt(如“右转遇对向车道车辆左转”“夕阳西下积水场景”“冬天积雪场景”)驱动模型生成定制化场景。两种方式协同作用,既保证了场景的真实性与基础一致性,又突破了传统采集的场景限制。

经实践验证,百度智能云生成的渲染数据肉眼难辨真假,可低成本、快速生成海量训练数据,有效满足VLA模型对多工况、多参数组合的仿真需求,尤其能支持极限工况的验证,显著提升了VLA模型的训练效率与泛化能力。这一技术突破为VLA训练提供了从“数据采集依赖”到“智能生成驱动”的新范式,助力模型更高效地应对复杂现实场景。

3、百度文心大模型:构建VLA多模态协同优化能力

百度文心大模型为VLA场景理解提供核心技术支撑。以 ERNIE-4.5-VL-28B-A3B模型为例,其28B 级参数规模与原生图文理解能力,可高效处理视觉输入并完成场景解析与决策输出。

面对城市道路视觉输入时,该模型展现强大场景理解与决策推导能力:在场景感知维度,针对含高架桥、大型广告牌、混合交通流(机动车、非机动车、行人)的道路图像,可精准捕捉空间布局、物体属性及交通参与者特征;在语义理解维度,通过多模态知识融合与关联建模,解析场景要素间逻辑关系(如高架桥下空间对光照、交通流的影响,广告牌视觉干扰与驾驶注意力的平衡机制);在决策生成维度,响应“描述内容+驾驶策略建议”的Prompt指令,输出结构化JSON结果,涵盖场景概况(空间与环境要素)、道路情况(物理特征与动态风险)、驾驶决策(操作指令与安全规则),完成从“视觉观察到可执行行动”的认知推理。

这种多模态融合的场景理解范式,不仅实现对真实复杂交通场景的细粒度感知与精准语义建模,更将视觉感知高效转化为安全、合规的驾驶动作指令,为VLA技术在自动驾驶中的落地,提供“环境感知-认知推理-动作生成”全链路技术赋能,推动视觉、语言、动作闭环在真实交通场景中精准落地。

4、全栈式研发工具链:构建VLA一体化开发平台

百度智能云打造一站式VLA研发工具链,以全链路技术能力支撑VLA研发的数据闭环构建与模型高效迭代。

在数据产线层面,构建“数据合规-数据处理-数据挖掘-数据合成”全链路能力,为VLA训练筑牢高质量数据底座;针对Vision输入场景,重点强化“数据生成、数据泛化”技术,依托多模态场景挖掘、传感器仿真、3DGS场景重建、三维资产生成等手段,打造高泛化性视觉输入体系;在Language输入环节,借力大模型能力实现“语义生成、CoT生成”,精准输出场景描述、车辆意图、交互任务链等关键指令维度,为决策层提供语义级支撑。

在Act输出层面,依托World Model构建“边训边测”仿真验证闭环,在强化学习、Log2world、SimCity等场景中,结合Reward机制与安全/体感/效率合规评估,高效验证算法效果并反哺迭代。

依托过往数据闭环工具链的技术积淀与主机厂合作经验,百度智能云在VLA场景持续深化研发:通过Vision、Language、Act三端的协同优化,打通“离线路采/量产回传数据-影子模式验证-VLA模型迭代-World Model仿真”全链路,既满足模块级技术专项突破,也支撑端到端系统的协同训练,为VLA技术规模化落地提供从研发工具到场景验证的一体化赋能,加速智能驾驶技术向产业价值的转化。

5、百度智能云:全方位赋能,助推VLA驶入现实

在智能驾驶迈向高阶智能化的关键阶段,百度智能云以“算力筑基、数据赋能、模型驱动、工具护航”的四维协同体系,构建起覆盖技术研发到量产落地的全栈能力。这种“技术-场景-生态”的立体化赋能模式,不仅为车企提供了从算法开发到合规落地的全生命周期支持,更通过虚实结合的仿真验证与车云协同机制,将VLA模型的决策效率实现数量级提升,推动高阶智驾从实验室验证迈向真实道路的规模化应用。为L3级自动驾驶技术的最终规模化商用提供了关键支撑,助力开启智能出行新篇章。

上一篇:
刚刚,失守100元!这波牛市,没有美团...
下一篇:
德赛西威为何跨界布局无人配送车?
Title