自动驾驶雨天也能平稳规划,北理港中文腾讯提出端到端学习道路几何图形

GeMap团队 发自 凹非寺
量子位 | 公众号 QbitAI

用几何图形来实时构建高精地图,真香!

就是雨天也不在话下~

我们都知道,实时高精地图,能为自动驾驶汽车提供及时、紧凑且语义丰富的环境信息。但如何提高它的稳健性、有效应对各种复杂场景,成为一大挑战。

来自北理、港中文、腾讯AI Lab团队引入一种新表征学习方法——GeMap,端到端学习地图实例中的几何形状和关系。

结果在各种遮挡、路口转弯的场景也能表现平稳,并实现SOTA。该论文被ECCV 2024收录。

来看看这到底是如何做到的?

高精地图的几何表示

在线矢量化高清 (HD) 地图的构建对于下游预测和规划至关重要。

然而,城市道路系统中实例的形状和关系仍未得到充分探索,例如矩形、平行、垂直或特定车道宽度。

此外,当车辆前进或转弯时,这些形状和关系属性将保持不变。以前的方法基于绝对坐标来格式化实例,在这种情况下,绝对坐标对平移和旋转很敏感。

团队提出了GeMap(几何地图),它以端到端的方式学习地图实例的欧几里得形状和关系,超越了基本感知。

来看看具体框架。

首先,透视图 (PV) 图像被转换为鸟瞰图 (BEV) 特征,然后几何解耦解码器输出矢量化高清地图。

在解码器的每个块中,查询首先通过欧几里得形状和关系注意力进行处理,重点关注几何相关性。

最后,通过形状和关系约束在 G-Representations 中增强预测。

几何表示

团队引入了捕捉单个地图实例的形状(欧几里得形状线索)和不同实例之间的关系(欧几里得关系线索)的几何表示。

欧几里得形状线索。位移向量的长度和相邻向量之间的角度构成形状线索,用于计算形状损失。例如,矩形与 90 度角和两个相等的边相关。

欧几里得关系线索。 点对之间的距离和位移矢量对之间的角度表示关系线索。关系线索与欧几里得关系几何有更表面的联系,例如平行或垂直。

几何解耦注意力

一种被MapTR,PivotNet等采用的架构将地图元素上的每一个点对应到Transformer的一个查询。这一架构的问题在于:对两大类的几何性质(关系和形状)不加区分。

在自注意力中,所有查询(也就是“点”)之间都平等地相互作用。然而,地图元素的形状对应着一组一组的查询。这些组之间的交互,在感知元素形状时就成为了累赘。反之在感知元素之间关联的时候,形状亦成为了冗余因素。这意味着将形状、关联的感知解耦,可能带来更好的结果

他们提出了几何解耦注意力(GDA)。GDA 将 vanilla 自注意力模块解耦为欧几里得形状注意力(捕获实例内几何)和欧几里得关系注意力(捕获实例间几何)。

实验结果

他们在nuScenes和Argoverse 2两个数据集上进行了大量实验。

两者都是常用的大规模自动驾驶数据集,且提供了地图标注。

主要结果

在nuScenes上,他们进行了三组实验。

我们首先使用了一种比较纯粹的目标函数组合,只包括几何损失和其它必要的损失(如点到点距离、边的方向、分类),这一组合是为了体现我们提出的几何性质的重要价值,而不过多追求SOTA的结果。

可以看到,在这种情况下,相比于MapTR,我们的方法能在mAP提升了4%。为了探索GeMap的极限,团队还加上了一些辅助目标,包括分割和深度估计,在这种情况下实现了SOTA(mAP提升0.7%)。

值得注意的是,取得这样的提升并不需要牺牲太多的推理速度。

最后,我们还尝试了引入额外的LiDAR模态输入,在额外模态输入的加持下,GeMap的性能也能取得进一步提升。

同样,在Argoverse 2数据集上也取得了非常突出的效果。

消融实验

在nuScenes上进一步进行的消融实验证明了几何损失和几何解耦注意力的价值。

有趣的是,正如团队所预料的,直接使用几何损失反而会带来模型表现的下降。他们认为这是因为结构上的对形状和关联处理的耦合,导致模型很难优化几何表示;而在与几何解耦注意力结合之后,几何损失就发挥了应有的作用。

更多结果

此外,我们还在nuScenes上进行了可视化分析。可视化的结果表明,GeMap除了具有对旋转和平移的鲁棒性,在处理遮挡问题上也表现出了一定优势,如下图。图中有挑战性的地图元素使用橘色方框标出。

对于对遮挡的鲁棒性,在雨天的实验结果中也得到了定量验证。

(因为雨水对相机有天然的遮挡)

这可以解释为模型学到了几何性质,因此即使有遮挡,也能更好地猜出地图元素。

例如,模型理解了车道线的形状,那么只需要”看到“一部分,就能够估计剩下的部分;模型理解了车道线之间的平行关系,或者车道的宽度特点,因此哪怕其中一条被遮挡,也能根据平行、宽度因素猜测被遮挡的部分。

在自动驾驶系统中,几何性质实际上广泛存在。

例如,在3D目标检测中,车辆的朝向在同车道上通常具有一致性;在运动预测中,轨迹本身具有形状上的先验;在3D车道线检测中具有车道宽度先验。

GeMap的建模几何性质的思路可以恰当地扩展到上述更多的自动驾驶任务中,从几何角度增强整个自动驾驶系统的性能。

不过,GeMap本身的感知距离相对有限,可以对此进行针对性的改进以增强长距离的感知。

比较常见的思路包括增加时序融合模块;将相机、激光雷达、毫米波雷达等多种传感器输入有机地融合,实现感知距离上的优势互补。

论文链接:https://arxiv.org/abs/2312.03341

项目主页:https://invictus717.github.io/GeMap/

GitHub源代码:https://github.com/cnzzx/GeMap

—  —


投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

相关推荐

  • OpenAI被举报:非法限制员工披露AI安全风险
  • 揭秘快手可灵背后的「关键7人」
  • 台积电宣布2nm芯片,下周见!!!
  • 【Python】流程图神器PygraphViz详解
  • 多所985、双一流高校食堂,牵涉油罐车混装食用油事件
  • 快停下,Redis 都要被你玩坏了
  • 下周,我倒闭 2 年的小网站将重出江湖!
  • 以LLM+KG技术为核心打造四大版块:老刘说NLP技术社区对外持续纳新
  • 有趣的“分而治之RAG”- Speculative RAG实现策略:兼看20240713大模型技术总结回顾
  • SpringBoot+XXL-JOB:高效定时任务管理
  • 微软发布 Visual Studio 17.10.2
  • 网易游戏如何基于 Apache Doris 构建全新湖仓一体架构
  • 软考,拿证了!| 极客时间
  • 大厂期权归属前遭暴力裁员,80 余万期权泡汤;去哪儿宣布每周两天“不坐班”;萝卜快跑是人类远程代驾?客服:无人操控 | Q资讯
  • React 中如何展示 XHR 和 Fetch 的请求响应进度?
  • 一大波,好评!
  • 前端如何用密文跟后端互通?原来那么简单!
  • 对话得物被裁员工:“35岁被暴力裁员”
  • SpringBoot+mail 轻松实现各类邮件自动推送
  • 大型视觉语言模型攻击综述:资源、进展与未来趋势