pointaugmenting cross-modal augmentation for 3d object detection_向光光同学的博客-爱代码爱编程
文章目录
论文: PointAugmenting: Cross-Modal Augmentation for 3D Object Detection
摘要
先提出背景,然后方法,难点/挑战(不过这篇没在摘要里面提出挑战,应该会放到引言里面提)
-
背景 :摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提供丰富的纹理和颜色提示,而激光雷达则专注于相对距离感应。 3D 物体检测的挑战在于有效地将 2D 相机图像与 3D LiDAR 点融合。
-
方法:提出了一种新的跨模态 3D 对象检测算法,名为PointAugmenting。
-
简述方法(概括方法)
- 一方面,PointAugmenting 用预训练的 2D 检测模型提取的相应逐点 CNN 特征来装饰点云,然后在装饰点云上执行 3D 对象检测。与装饰点云的高度抽象的语义分割分数相比,来自检测网络的 CNN 特征适应对象外观变化,取得显着改善。
- 另一方面,PointAugmenting 受益于一种新颖的跨模态数据增强算法,该算法在网络训练期间始终将虚拟对象粘贴到图像和点云中。
-
Introduction
paragraph1
-
介绍3D物体检测和激光雷达背景和挑
- 背景:3D 对象检测在自动驾驶的 3D 场景理解中起着至关重要的作用。现有的 3D 物体检测算法主要使用激光雷达和相机来感知环境。激光雷达以稀疏点云的形式获取深度信息,而相机以具有丰富色彩和纹理的密集强度阵列形式捕获图像。
- 挑战: 3D 对象检测的挑战在于图像和点云之间的错位。
- 解决挑战的方法在这项工作中,我们的目标是通过有效的跨模态数据融合和增强来推进 3D 对象检测。
paragraph2 -5
-
介绍现有方法和缺点
-
现有方法:三种跨模态分类:result-level fusion、proposal-level fusion和point-level fusion。
-
缺点:
- result-level fusion[13, 21] 采用现成的 2D 对象检测器,因此它们的性能受到 2D 检测器上限的限制。
- proposal-level fusion的融合方法,例如 MV3D [3] 和 AVOD [8],在区域提议级别执行融合,导致计算量很大。
- 最近的方法 [11, 10, 29, 16, 7, 19] 试图通过将点云投影到图像平面上来获取逐点图像特征。[11,10,29] 在与 LiDAR BEV 特征融合之前构建鸟瞰 (BEV) 相机特征以减轻视点不一致。跨视图变换很容易导致特征模糊。
-
(反转)相反,MVX-Net [16]、EPNet [7] 和 PointPainting [19] 直接利用逐点对应来使用 CNN 特征或图像分割的分割分数来增强每个 LiDAR 点。
-
在分割分数的帮助下,PointPainting 已成为一种流行的融合基线,在大规模数据集上比仅使用 LiDAR 的检测器获得了巨大的收益。
-
**通过实验探索更有效的改进方式(前面夸了Point Painting很好,但是还有不足,因为还存在挑战、可改进的地方)**图像的高维CNN特征比分割分数有更丰富的的外观线索和更大的感受野。
-
改进: 对发现的高维CNN特点进行改进,把VGG16换成了CenterNet的DLA34层作为输出,是为了强调细粒度的细节以加强点云之间的区别。
-
**再改进:**改善LiDAR和相机之间的模态差距,采用跨模态的后期融合机制。(并展现了融合后的效果)
-
(训练中存在的瓶颈):跨模态的数据增强
- 先介绍现有的数据增强方案GT-Paste
- 但这种增强方案会破坏LiDAR点和相机图像之间的一致性
- 从而解决这个问题 :首先遵循观察者的视角,根据几何一致规则过滤被遮挡的 LiDAR 点。然后抓住当前场景中的所有对象,并将它们对应的补丁以远近顺序粘贴到图像上
-
paragraph6
贡献总结
- 我们从 2D 对象检测网络中探索有效的 CNN 特征作为图像表示,以与 LiDAR 点融合以进行 3D 对象检测。
- 考虑到相机和激光雷达之间的模态一致性,我们提出了一种简单而有效的跨模态数据增强方法来训练 3D 对象检测器。
- 我们在大规模 nuScenes 和 Waymo 数据集上广泛验证了跨模式融合和数据增强的有效性。提出的 3D 检测器 PointAugmenting 在迄今为止的 nuScenes 排行榜上取得了新的最新成果。
相关工作
针对类型概括相关工作特点和其缺点
-
LIDAR-Based 3D Detection
- 基于网络
- 基于点
-
Fusion-Based 3D Detection:在我们的工作中,我们探索了一种更好的图像表示和融合机制,以促进逐点跨模态数据融合。
-
数据增强: 受 Cutmix 的启发,我们跨模态 3D 增强的意图是同时将对象点和图像块粘贴到场景中,同时保持传感器之间的一致性。
PointAugmenting
先用第一段介绍该论文的方法大致结构,然后开始分点详细介绍方法。
Cross-Modal Fusion
Point-wise Feature Fetching 逐点特征提取
最近检测器 PointPainting [19] 的成功启发我们用相机图像的语义来装饰 LiDAR 点。(这里还是大胆的表明了,是引用的别人的方法,并不是自己创新)最后使用了2D对象检测而不是语义分割训练的现成网络
-
提出了为什么才用这个方法的三个原因:
- 2D与3D互补,专注于对象的不同粒度级别,彼此受益。
- 2D检测标签更容易获得
- 检测网络比分割网络友好
-
然后再总结自己方法的使用方式。
3D Detection
这里就开始简述该论文的3D检测方法了
Cross-modal data Augment
这里的数据增强也是运用的别人的方法
- 受最近的图像增强方法 Cutmix [31] 的启发,我们尝试在将虚拟对象的 LiDAR 点粘贴到当前 3D 场景中时同时将图像补丁附加到图像。
主要挑战:在于保持相机和激光雷达数据之间的一致性。
- 如图 4 所示,从观察者的角度来看,粘贴的自行车在原始 3D 场景中被汽车部分遮挡,导致相机图像重叠。如果我们直接将虚拟对象补丁粘贴到图像上,则投影在重叠区域中的对象点可能会获取不匹配的特征。此外,投影到虚拟补丁中的背景点也会捕获不正确的信息。
解决方式:我们确定了前景物体之间的遮挡关系,并从观察者的角度过滤了那些被遮挡的 LiDAR 点。对于相机图像,我们取出虚拟对象和原始对象,并按远近顺序附加它们的补丁。
再详细介绍方法
- Augmentation for LiDAR Points.
- Augmentation for Camera Images.
实验
本篇论文也只总共在两个数据集上进行了实验
Ablation Studies(可以参考这里进行自己论文的实验)
- 跨模态融合的好处 (a,d):我们的融合架构将仅 LiDAR 的性能显着提高了 +10.1% mAP,这表明跨模态融合对于 3D 对象检测的重要性。(参考这里的话,跨模态的VGG和没有跨模态的VGG对比)
- 用于融合的相机输入 (b,c):将 PointPainting 建议的分割分数替换为我们的检测功能会产生 +3.7% 的 mAP 改进。尽管分割分数提供了一个紧凑的表示来补充 LiDAR 点,但 CNN 特征更擅长提供丰富的外观线索和大的感受野。结果表明为相机模态选择有效表示的重要性。
- 不同的融合机制 (c,d):将我们的后期融合机制与简单的串联进行比较,我们通过使用我们的检测特征作为输入实现了 +1.5% 的 mAP 增益。早期的逐点连接忽略了 LiDAR 和相机之间数据特征的巨大差异。
Cross-Modal data Augmentation
因为本文的数据增强也是一大特点,所以也对数据增强的不同方法进行了ablation studies
visualization of 2D Detection
还通过可显示化证明结果的可靠性和进行分析
Runtime
比较检测速度 (这里的话,感觉没有什么可取的,因为我那个不是很参考检测速度)
总结
在本文中,我们提出了一种新颖的跨模态 3D 对象检测器,名为 PointAugmenting。通过提出的跨模态数据融合和数据增强方案,PointAugmenting 在 nuScenes 检测排行榜上设置了新的最先进的结果。作为跨模态 3D 检测器的强大基线,我们的 PointAugmenting 在未来的工作中可以在两个方面进行改进。首先,尽管我们的后期融合机制有效,但更有效的跨模态融合方案是可取的。此外,考虑到 Waymo 数据集中 LiDAR 和摄像头之间的不同视场,实际应用需要一个适应不同模态(仅 LiDAR 或跨模态)的单一模型。
我的总结
- 本论文几乎没有公式
- 也没有特别提出创新点,都是受人启发,这是完全没有错的,并且在论文中明确的引用了,很正确的行为。毕竟当前创新的东西早就被人提烂了。
- 工作量很大
- 逻辑很清晰