在2025年聚合智能产业发展大会上,香港科技大学副教授、元戎启行客座教授陈启峰分享了关于具身智能领域的研究进展,特别强调了VLA模型在提升车辆理解复杂驾驶场景方面的作用。

陈启峰指出,VLA模型(Vision Language Action)是一种核心技术,它能够将视觉、语言和行为等多模态信息进行整合,这种整合对于机器人和车辆在复杂环境中的自主决策和动作执行至关重要。

在演讲中,陈启峰详细解释了VLA模型的工作原理,他提到,机器人通过多种传感器如图像、深度图和地图等获取信息,并构建了“大脑”和“小脑”系统。“小脑”负责控制层面,而“大脑”则负责行为规划和决策,VLA模型作为“大脑”的核心技术之一,能够将视觉、语言和行为信息综合起来,帮助机器人和车辆在复杂环境中做出自主决策。

香港科技大学陈启峰:VLA模型能将视觉、语言和行为多模态信息整合,让车辆更好地理解驾驶场景

陈启峰还强调了语言理解能力在智能驾驶发展中的重要性,他认为,良好的语言理解能力不仅增强了机器人和车辆的可控性和交互性,还能在复杂场景下提供高级推理能力,为通用化机器人和智能驾驶系统奠定技术基础。

针对智能驾驶中处理盲区的挑战,陈启峰以VLA模型为例,说明了其在理解和规避风险场景方面的优势,他指出,通过VLA模型,车辆能够更好地理解道路上的文字信息,如可变车道或公交车道的使用规则,从而做出更安全的驾驶决策。

陈启峰总结道,VLA模型具有多方面的优势,包括空间语义理解、障碍物识别、文字信息解读和语音控车等,这些功能使得VLA模型如同一个“透视眼”,能够在传统感知无法触及的地方发现风险,注意盲区,并通过文字信息辅助驾驶决策,实现更安全的驾驶体验。