TOKEN:利用对象中心化标记化提升自动驾驶长尾事件处理能力

Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving

摘要

本文探讨了自动驾驶领域中长尾事件处理的问题,即自动驾驶系统在遇到罕见或未见过的场景时性能下降的情况。为了解决这一问题,研究者提出了TOKEN,一种多模态大型语言模型(MM-LLM),它通过将世界分解为对象级别的知识来增强自动驾驶车辆在长尾场景中的规划能力。TOKEN通过利用传统的端到端驾驶模型生成浓缩且语义丰富的场景表示,并通过有意的表示和推理对齐训练阶段进行优化,以提高LLM的规划兼容性。实验结果表明,TOKEN在定位、推理和规划能力上优于现有框架,显著减少了轨迹L2误差和碰撞率。

原理

TOKEN的核心创新在于对象中心化标记化(object-centric tokenization),它将复杂的驾驶场景分解为若干代表场景中相关对象的潜在标记(latent tokens)。每个标记不仅包含对象的语义信息,还包含其几何和动态行为信息。这种标记化方法使得LLM能够更容易地理解和处理场景信息,从而提高其在长尾事件中的决策和规划能力。此外,TOKEN还采用了表示对齐(representation alignment)和结构化推理过程对齐(structured reasoning process alignment)的训练策略,确保模型能够有效地利用LLM的常识推理能力。

流程

TOKEN的工作流程包括三个主要模块:场景标记器(scene tokenizer)、适配器(adapter)和LLM。场景标记器负责将传感器输入(如多视角视频和HD地图)转换为对象级别的标记。适配器则负责将这些标记的嵌入空间与文本嵌入空间对齐,以便LLM能够理解和提取信息。最后,LLM利用这些标记进行场景理解、对象定位、交互规划和路径决策,生成最终的驾驶计划。例如,在处理一个需要左转的场景时,TOKEN会首先识别出关键对象(如行人或车辆),然后规划如何安全地与这些对象交互,最终生成详细的3秒未来轨迹计划。

应用

TOKEN的应用前景广阔,尤其在自动驾驶领域。它不仅能够提高自动驾驶车辆在常见场景下的性能,还能显著增强其在罕见或未见过的长尾场景中的适应性和安全性。随着技术的进一步发展和数据的积累,TOKEN有望成为自动驾驶系统中的关键组件,推动自动驾驶技术的商业化进程。