代码编织梦想


论文: PointAugmenting: Cross-Modal Augmentation for 3D Object Detection

摘要

先提出背景,然后方法,难点/挑战(不过这篇没在摘要里面提出挑战,应该会放到引言里面提)

  • 背景 :摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提供丰富的纹理和颜色提示,而激光雷达则专注于相对距离感应。 3D 物体检测的挑战在于有效地将 2D 相机图像与 3D LiDAR 点融合。

  • 方法:提出了一种新的跨模态 3D 对象检测算法,名为PointAugmenting。

    • 简述方法(概括方法)

      • 一方面,PointAugmenting 用预训练的 2D 检测模型提取的相应逐点 CNN 特征来装饰点云,然后在装饰点云上执行 3D 对象检测。与装饰点云的高度抽象的语义分割分数相比,来自检测网络的 CNN 特征适应对象外观变化,取得显着改善。
      • 另一方面,PointAugmenting 受益于一种新颖的跨模态数据增强算法,该算法在网络训练期间始终将虚拟对象粘贴到图像和点云中。

Introduction

paragraph1

  1. 介绍3D物体检测和激光雷达背景和挑

    1. 背景:3D 对象检测在自动驾驶的 3D 场景理解中起着至关重要的作用。现有的 3D 物体检测算法主要使用激光雷达和相机来感知环境。激光雷达以稀疏点云的形式获取深度信息,而相机以具有丰富色彩和纹理的密集强度阵列形式捕获图像。
    2. 挑战: 3D 对象检测的挑战在于图像和点云之间的错位。
    3. 解决挑战的方法在这项工作中,我们的目标是通过有效的跨模态数据融合和增强来推进 3D 对象检测。

paragraph2 -5

  1. 介绍现有方法和缺点

    1. 现有方法:三种跨模态分类:result-level fusion、proposal-level fusion和point-level fusion。

    2. 缺点:

      • result-level fusion[13, 21] 采用现成的 2D 对象检测器,因此它们的性能受到 2D 检测器上限的限制。
      • proposal-level fusion的融合方法,例如 MV3D [3] 和 AVOD [8],在区域提议级别执行融合,导致计算量很大。
      • 最近的方法 [11, 10, 29, 16, 7, 19] 试图通过将点云投影到图像平面上来获取逐点图像特征。[11,10,29] 在与 LiDAR BEV 特征融合之前构建鸟瞰 (BEV) 相机特征以减轻视点不一致。跨视图变换很容易导致特征模糊。
    3. (反转)相反,MVX-Net [16]、EPNet [7] 和 PointPainting [19] 直接利用逐点对应来使用 CNN 特征或图像分割的分割分数来增强每个 LiDAR 点。

    4. 在分割分数的帮助下,PointPainting 已成为一种流行的融合基线,在大规模数据集上比仅使用 LiDAR 的检测器获得了巨大的收益。

    5. **通过实验探索更有效的改进方式(前面夸了Point Painting很好,但是还有不足,因为还存在挑战、可改进的地方)**图像的高维CNN特征比分割分数有更丰富的的外观线索和更大的感受野。

    6. 改进: 对发现的高维CNN特点进行改进,把VGG16换成了CenterNet的DLA34层作为输出,是为了强调细粒度的细节以加强点云之间的区别。

    7. **再改进:**改善LiDAR和相机之间的模态差距,采用跨模态的后期融合机制。(并展现了融合后的效果)

    8. (训练中存在的瓶颈):跨模态的数据增强

      1. 先介绍现有的数据增强方案GT-Paste
      2. 但这种增强方案会破坏LiDAR点和相机图像之间的一致性
      3. 从而解决这个问题 :首先遵循观察者的视角,根据几何一致规则过滤被遮挡的 LiDAR 点。然后抓住当前场景中的所有对象,并将它们对应的补丁以远近顺序粘贴到图像上

paragraph6

贡献总结

  1. 我们从 2D 对象检测网络中探索有效的 CNN 特征作为图像表示,以与 LiDAR 点融合以进行 3D 对象检测。
  2. 考虑到相机和激光雷达之间的模态一致性,我们提出了一种简单而有效的跨模态数据增强方法来训练 3D 对象检测器。
  3. 我们在大规模 nuScenes 和 Waymo 数据集上广泛验证了跨模式融合和数据增强的有效性。提出的 3D 检测器 PointAugmenting 在迄今为止的 nuScenes 排行榜上取得了新的最新成果。

相关工作

针对类型概括相关工作特点和其缺点

  • LIDAR-Based 3D Detection

    • 基于网络
    • 基于点
  • Fusion-Based 3D Detection:在我们的工作中,我们探索了一种更好的图像表示和融合机制,以促进逐点跨模态数据融合。

  • 数据增强: 受 Cutmix 的启发,我们跨模态 3D 增强的意图是同时将对象点和图像块粘贴到场景中,同时保持传感器之间的一致性。

PointAugmenting

先用第一段介绍该论文的方法大致结构,然后开始分点详细介绍方法。

Cross-Modal Fusion

Point-wise Feature Fetching 逐点特征提取

最近检测器 PointPainting [19] 的成功启发我们用相机图像的语义来装饰 LiDAR 点。(这里还是大胆的表明了,是引用的别人的方法,并不是自己创新)最后使用了2D对象检测而不是语义分割训练的现成网络

  • 提出了为什么才用这个方法的三个原因:

    • 2D与3D互补,专注于对象的不同粒度级别,彼此受益。
    • 2D检测标签更容易获得
    • 检测网络比分割网络友好
  • 然后再总结自己方法的使用方式。

3D Detection

这里就开始简述该论文的3D检测方法了

Cross-modal data Augment

这里的数据增强也是运用的别人的方法

  • 受最近的图像增强方法 Cutmix [31] 的启发,我们尝试在将虚拟对象的 LiDAR 点粘贴到当前 3D 场景中时同时将图像补丁附加到图像。

主要挑战:在于保持相机和激光雷达数据之间的一致性。

  • 如图 4 所示,从观察者的角度来看,粘贴的自行车在原始 3D 场景中被汽车部分遮挡,导致相机图像重叠。如果我们直接将虚拟对象补丁粘贴到图像上,则投影在重叠区域中的对象点可能会获取不匹配的特征。此外,投影到虚拟补丁中的背景点也会捕获不正确的信息。

解决方式:我们确定了前景物体之间的遮挡关系,并从观察者的角度过滤了那些被遮挡的 LiDAR 点。对于相机图像,我们取出虚拟对象和原始对象,并按远近顺序附加它们的补丁。

再详细介绍方法

  • Augmentation for LiDAR Points.
  • Augmentation for Camera Images.

实验

本篇论文也只总共在两个数据集上进行了实验

Ablation Studies(可以参考这里进行自己论文的实验)

  1. 跨模态融合的好处 (a,d):我们的融合架构将仅 LiDAR 的性能显着提高了 +10.1% mAP,这表明跨模态融合对于 3D 对象检测的重要性。(参考这里的话,跨模态的VGG和没有跨模态的VGG对比)
  2. 用于融合的相机输入 (b,c):将 PointPainting 建议的分割分数替换为我们的检测功能会产生 +3.7% 的 mAP 改进。尽管分割分数提供了一个紧凑的表示来补充 LiDAR 点,但 CNN 特征更擅长提供丰富的外观线索和大的感受野。结果表明为相机模态选择有效表示的重要性
  3. 不同的融合机制 (c,d):将我们的后期融合机制与简单的串联进行比较,我们通过使用我们的检测特征作为输入实现了 +1.5% 的 mAP 增益。早期的逐点连接忽略了 LiDAR 和相机之间数据特征的巨大差异。

Cross-Modal data Augmentation

因为本文的数据增强也是一大特点,所以也对数据增强的不同方法进行了ablation studies

visualization of 2D Detection

还通过可显示化证明结果的可靠性和进行分析

Runtime

比较检测速度 (这里的话,感觉没有什么可取的,因为我那个不是很参考检测速度)

总结

在本文中,我们提出了一种新颖的跨模态 3D 对象检测器,名为 PointAugmenting。通过提出的跨模态数据融合和数据增强方案,PointAugmenting 在 nuScenes 检测排行榜上设置了新的最先进的结果。作为跨模态 3D 检测器的强大基线,我们的 PointAugmenting 在未来的工作中可以在两个方面进行改进。首先,尽管我们的后期融合机制有效,但更有效的跨模态融合方案是可取的。此外,考虑到 Waymo 数据集中 LiDAR 和摄像头之间的不同视场,实际应用需要一个适应不同模态(仅 LiDAR 或跨模态)的单一模型。

我的总结

  1. 本论文几乎没有公式
  2. 也没有特别提出创新点,都是受人启发,这是完全没有错的,并且在论文中明确的引用了,很正确的行为。毕竟当前创新的东西早就被人提烂了。
  3. 工作量很大
  4. 逻辑很清晰
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Xg_316167164/article/details/127170922

cvpr 2018 paper ---object detection_amelie_wyl的博客-爱代码爱编程

转载:https://blog.csdn.net/qq_34848537/article/details/82968217 参考链接 CVPR 2018 论文解读集锦(9月27日更新)CVPR 2018 open access 关键词搜索: “Object Detection ”list  Scale-Transferrable Object De

object detection_走投无路的乐乐的博客-爱代码爱编程

Methodbackbonetest sizeVOC2007VOC2010VOC2012ILSVRC 2013MSCOCO 2015SpeedOverFeat     24.3%  R-CNNAlexNet 58.5%53.7%53.3%31.4%  R-CNNVGG16 66.0%     SPP_netZF-5 54.2%  31.84%  DeepI

基于视觉的机器人抓取: 论文及代码(vision-based robotic grasping: papers and codes)-爱代码爱编程

本文同步于微信公众号:3D视觉前沿,欢迎大家关注。 本文总结了基于视觉的机器人抓取的相关论文及代码,同步于 GitHub。 机器人抓取必需的信息是相机系下抓取器的6DoF位姿,包括抓取器的3D位置和抓取器的3D空间朝向。

【Daily Paper 7.10】ECCV、IEEE、MICCAI等 3D 模型拟合、目标检测、姿态估计等多篇文章-爱代码爱编程

关注 3D Daily,关注3D最新科研动态。 翻看公众号历史记录,查看每日 arXiv 论文更新。 3D方向6篇,医学影像2篇。 题目为机器翻译,仅供参考。 [1] The Phong Surface: Efficient 3D Model Fitting using Lifted Optimization Phong曲面: 使用提升优化的高效

自动驾驶场景3D目标检测论文合集-爱代码爱编程

awesome-Automanous-3D-detection-methods 前言 该项目地址为:https://github.com/LittleYuanzi/awesome-Automanous-3D-detection-methods 该项目主要在对近期(17年)开始的自动驾驶场景的目标检测方法做一个汇总,持续更新,也欢迎大家参与进来。为了方便

计算机视觉论文-2021-03-31-爱代码爱编程

本专栏是计算机视觉方向论文收集积累,时间:2021年3月31日,来源:paper digest 欢迎关注原创公众号 【计算机视觉联盟】,回复 【西瓜书手推笔记】 可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址)   1, TITLE: 3D AffordanceNet: A Benchmark

deep learning object detection-爱代码爱编程

deep learning object detection Author: deep learning object detection Paper list from 2014 to now(2019) The part highlighted with red characters means papers that i think “must

3D目标检测论文方法汇总 【2021部分持续更新中~】-爱代码爱编程

Automanous-3D-detection-methods 版权注释 该项目地址为:https://github.com/LittleYuanzi/awesome-Automanous-3D-detection-methods 2017~2020汇总部分由CSDN博主Little_sky_jty博主倾力攥写,2021部分我将对其进行维护更新为我个人

SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud(CVPR2021)三维目标检测-爱代码爱编程

Wu Zheng Weiliang Tang Li Jiang Chi-Wing Fu The Chinese University of Hong Kong[paper] [code] 文章目录 目录 Wu Zheng Weiliang Tang Li Jiang Chi-Wing FuThe Chinese University of

计算机视觉论文-2021-06-28-爱代码爱编程

本专栏是计算机视觉方向论文收集积累,时间:2021年6月28日,来源:paper digest 欢迎关注原创公众号 【计算机视觉联盟】,回复 【西瓜书手推笔记】 可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址) 1, TITLE: CausalCity: Complex Simulations

计算机视觉论文-2021-07-12-爱代码爱编程

本专栏是计算机视觉方向论文收集积累,时间:2021年7月12日,来源:paper digest 欢迎关注原创公众号 【计算机视觉联盟】,回复 【西瓜书手推笔记】 可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址) 1, TITLE: Hoechst Is All You Need: Lymphoc

计算机视觉论文-2021-11-02-爱代码爱编程

本专栏是计算机视觉方向论文收集积累,时间:2021年9月15日,来源:paper digest 欢迎关注原创公众号 【计算机视觉联盟】,回复 【西瓜书手推笔记】 可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址) 标题:天文学中深度学习算法的鲁棒性——星系形态学研究 作者:阿依普里亚诺维奇等。 类

多视图,多模态近两年论文-爱代码爱编程

会议/期刊论文neurips2020Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies.neurips2020Labelling unlabelled videos from scratch with multi-modal

PointAugmenting: Cross-Modal Augmentation for 3D Object Detection 中文翻译-爱代码爱编程

** PointAugmenting: Cross-Modal Augmentation for 3D Object Detection ** Chunwei Wang, Chao Ma*, Ming Zhu, and Xiaokang Yang MoE Key Lab of Artificial Intelligence, AI Institute,

论文解读:跨模态/多光谱/多模态检测 Cross-Modality Fusion Transformer for Multispectral Object Detection-爱代码爱编程

                                                        (可见图像和热成像)         右侧的热图像可以在光照不足的情况下捕捉到更清晰的行人轮廓。 此外,热图像还捕捉到被柱子遮挡的行人。在光线充足的白天,视觉图像比热图像具有更多的细节,例如边缘、纹理和颜色。有了这些细节,我们可以很容易

PointAugmenting: Cross-Modal Augmentation for 3D Object Detection论文笔记-爱代码爱编程

PointAugmenting: Cross-Modal Augmentation for 3D Object Detection(point-level fusion) CVPR2021 1.摘要+intro 作者认为fusion的核心问题在于将BEV视角的点云信息和camrea信息融合。在分割分数的帮助下,PointPainting已经作为一种流行的

【论文翻译】rodeo: replay for online object detection-爱代码爱编程

RODEO: Replay for Online Object Detection 用于在线目标检测的回放 论文地址:https://arxiv.org/abs/2008.06439 代码地址:GitHub - manoja328/rodeo: Official implementation of "RODEO: Replay for Online O