代码编织梦想

题目:SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences

这篇文章主要是发布数据集SemanticKITTI 没太大难度直接看看就好 ICCV2019

数据集官网:SemanticKITTI - A Dataset for LiDAR-based Semantic Scene Understanding

0、摘要

        语义场景理解对于各种应用都很重要。特别是,自动驾驶汽车需要对其附近的表面和物体有精细的了解。光探测和测距 (LiDAR) 提供有关环境的精确几何信息,因此几乎是所有自动驾驶汽车传感器套件的一部分。尽管语义场景理解与此应用程序相关,但缺少基于汽车 LiDAR 的此任务的大型数据集。

        在本文中,我们引入了一个大型数据集来推动基于激光的语义分割的研究。我们注释了 KITTI 视觉里程计基准的所有序列,并为所使用的汽车 LiDAR 的完整 360视野提供了密集的逐点注释。我们基于这个数据集提出了三个基准任务:(i)使用单次扫描的点云语义分割,(ii)使用多次过去扫描的语义分割(iii)语义场景补全,这需要预测未来语义场景。我们提供了基线实验,并表明需要更复杂的模型来有效地处理这些任务。我们的数据集为开发更先进的方法打开了大门,同时也提供了丰富的数据来研究新的研究方向。

1. 引言Introduction

        语义场景理解对于许多应用程序都是必不可少的,也是自动驾驶汽车不可或缺的一部分。特别是,语义分割提供的细粒度理解对于区分可驾驶和不可驾驶的表面以及推断功能属性(如停车场和人行道)是必要的。目前,以所谓的高清地图为代表的这种理解主要是使用测量车辆预先生成的。然而,自动驾驶汽车也应该能够在未映射的区域行驶,并在环境发生变化时调整其行为。

        大多数自动驾驶汽车目前使用多个不同的传感器来感知环境。互补的传感器模式能够应对特定传感器的缺陷或故障。除了相机之外,还经常使用光检测和测距 (LiDAR) 传感器,因为它们可以提供不受光照影响的精确距离测量。

        公开可用的数据集和基准对于研究的实证评估至关重要。它们主要实现三个目的:(i)它们提供了衡量进展的基础,因为它们允许提供可重现和可比较的结果,(ii)它们揭示了当前技术水平的缺点,从而为新方法铺平了道路和研究方向,以及 (iii) 它们使开发方法成为可能,而无需首先煞费苦心地收集和标记数据。虽然存在多个用于基于图像的语义分割的大型数据集 [10, 39],但具有三维点云逐点注释的公开数据集仍然相对较小,如表 1 所示。

        为了弥补这一差距,我们提出了SemanticKITTI,这是一个大型数据集,它显示了具有28个类的空前细节,适用于各种任务。本文主要关注基于激光的语义分割,同时也关注语义场景的完成。该数据集与其他激光数据集不同,因为我们提供了准确的序列扫描注释。总体而言,我们注释了KITTI视觉基准[19]的所有22个测距基准序列,包括超过4.3万次扫描。此外,我们还标记了旋转激光传感器的完整水平360◦视场。图1显示了所提供数据集的示例场景。总之,我们的主要贡献是:

 

  • 我们展示了一个点云序列的逐点注释数据集,其中包含前所未有的类别数量和每次扫描的不可见细节级别。
  •  我们还提供了对点云语义分割的最新方法的评估。 
  • 我们研究了序列信息在使用多次扫描的语义分割中的使用。 
  • 基于对移动汽车序列的注释,我们进一步引入了用于语义场景补全的真实世界数据集,并提供了基线结果。
  • 与基准网站一起,点云标记工具也是公开可用的,使其他研究人员能够在未来生成其他标记的数据集。

这个大数据集将刺激新算法的发展,使研究新的研究方向成为可能,并为这些新算法的评估和比较奠定更坚实的基础。

2. 相关工作Related Work

        计算机视觉的进步一直受到基准和数据集 [55] 的推动,但是特别大规模的数据集(例如 ImageNet [13])的可用性甚至是深度学习出现的关键先决条件。

        还提出了更多面向自动驾驶汽车的特定任务数据集。这里值得注意的是 KITTI Vision Benchmark [19],因为它表明现成的解决方案并不总是适合自动驾驶。 Cityscapes 数据集 [10] 是第一个用于自动驾驶汽车应用的数据集,它提供了大量适合深度学习的像素级标记图像。Mapillary Vistas 数据集 [39] 标记数据的数量和多样性都超过了Cityscapes 。

        同样在基于点云的解释中,例如语义分割,基于 RGB-D 的数据集取得了巨大进步。 ShapeNet [8] 对于显示单个对象的点云尤其值得注意,但此类数据不能直接传输到其他域。具体来说,LiDAR 传感器通常不会像 RGB-D 传感器那样密集地覆盖物体,因为它们的角分辨率较低,尤其是在垂直方向上。

        对于室内环境,有几个数据集[48,46,24,3,11,35,32,12]可用,主要是使用RGB-D相机或合成生成的记录。然而,这类数据显示出与室外环境相比截然不同的特性,这也是由环境的大小造成的,因为在室内捕获的点云由于扫描对象的范围而趋于密集。此外,传感器在稀疏性和准确性方面也有不同的特性。虽然激光传感器比RGB-D传感器更精确,但与后者相比,它们通常只捕获稀疏点云。

        对于户外环境,最近提出了使用地面激光扫描仪( TLS )记录的数据集,如Semantic3d数据集[23] ,或使用汽车LiDAR ,如Paris-Lille-3D数据集[47]。 然而, Paris-Lille-3D仅为50个类别提供带有逐点注释的聚合扫描,其中有9个类别被选中进行评估。 另一个近期用于自动驾驶的大型数据集[57] ,但类较少,无法公开获得。

         Virtual KITTI 数据集 [17] 提供具有深度信息和密集像素注释的综合生成的序列图像。深度信息也可用于生成点云。然而,这些点云并没有表现出与真正的旋转激光雷达相同的特征,包括反射和异常值等缺陷。

        与这些数据集相比,我们的数据集结合了大量标记点、种类繁多的类别以及自动驾驶中常用传感器生成的顺序扫描,这与所有公开可用的数据集不同,如表 1 所示.

3. SemanticKITTI 数据集The SemanticKITTI Dataset

        我们的数据集基于 KITTI Vision Benchmark [19] 的里程计数据集,显示了德国卡尔斯鲁厄周围的城市交通、住宅区以及高速公路场景和乡村道路。原始里程计数据集由22个序列组成,拆分序列00到10作为训练集,11到21作为测试集。为了与原始基准保持一致,我们对训练和测试集采用相同的划分。此外,我们不会通过仅为训练数据提供标签来干扰原始里程计基准。总体而言,我们提供了 23 201 个全 3D 扫描用于训练,20 351 个用于测试,这使其成为公开可用的最大数据集。

        我们决定使用 KITTI 数据集作为我们标记工作的基础,因为它允许我们利用汽车捕获的最大可用原始点云数据集合之一。我们还期望我们的注释和现有基准之间也存在潜在的协同作用,这将使调查和评估其他研究方向成为可能,例如使用语义进行基于激光的里程计估计。

        与其他数据集(参见表 1)相比,我们为使用常用汽车激光雷达(即 Velodyne HDL64E)生成的顺序点云提供标签。其他公开可用的数据集,如 Paris-Lille-3D [47] 或 Wachtberg [6],也使用此类传感器,但分别仅提供整个采集序列的聚合点云或整个序列的一些单独扫描。由于我们提供了整个序列的单独扫描,因此还可以研究聚合多个连续扫描如何影响语义分割的性能,并使用这些信息来识别移动物体。

        我们注释了 28 个类,其中我们确保类与 Mapillary Vistas 数据集 [39] 和 Cityscapes 数据集 [10] 有很大重叠,并在必要时进行修改以考虑稀疏性和垂直视野。更具体地说,我们不区分骑车的人和车辆,而是将车辆和人标记为骑自行车的人或骑摩托车的人。

        我们进一步区分了移动和非移动车辆和人类,即,如果车辆或人类在观察它们的同时在某些扫描中移动,则会获得相应的移动类,如图 2 的下半部分所示。所有带注释的类都列在图 3 和可以在补充材料中找到对不同类的更详细的讨论和定义。总而言之,我们有 28 个类,其中 6 个类被分配了移动或非移动属性,并且包含一个离群值类用于由反射或其他影响引起的错误激光测量。

        该数据集可通过基准网站公开获得,我们仅提供带有地面真实标签的训练集,并在线执行测试集评估。此外,我们还将限制可能的测试集评估的数量,以防止对测试集的过度拟合 [55]。

3.1. 打标签过程Labeling Process

        为了使点云序列的标记实用,我们将多个扫描叠加在彼此之上,这反过来允许我们一致地标记多个扫描。为此,我们首先使用现成的基于激光的 SLAM 系统 [5] 注册并循环关闭序列。此步骤是必需的,因为惯性导航系统 (INS) 提供的信息通常会导致地图不一致,即一段时间后重新访问的街道具有不同的高度。对于三个序列,我们必须手动添加闭环约束以获得正确的闭环轨迹,因为这对于获得一致的点云进行注释至关重要。循环闭合姿势允许我们加载特定位置的所有重叠点云并将它们一起可视化,如图 2 所示。

        我们将点云序列细分为 100m x 100m 的图块。对于每个图块,我们只加载与图块重叠的扫描。这使我们能够一致地标记所有扫描,即使我们遇到时间上遥远的闭环。为了确保与多个图块重叠的扫描的一致性,我们显示每个图块内的所有点以及与相邻图块重叠的小边界。因此,可以从相邻的图块延续的标签。

        遵循最佳实践,我们编制了标签说明并提供了有关如何标记某些物体(例如靠墙站立的汽车和自行车)的教学视频。与基于图像的注释相比,点云的注释过程更为复杂,因为注释者经常需要改变视点。注释者在标记与遇到的最复杂风景相对应的住宅区时,每个图块平均需要 4.5 小时,而在标记高速公路图块时平均需要 1.5 小时。

        我们明确没有对KITTI数据集使用边界框或其他可用的注释,因为我们希望确保标签一致,且按点标记应仅包含对象本身。

        我们定期向注释者提供反馈,以提高标签的质量和准确性。尽管如此,单个注释器也会在第二个通道中验证标签,即校正不一致并添加缺失的标签。总之,整个数据集包括518个图块,并且投入了超过1400小时的标签工作,每个图块增加了10 − 60分钟的验证和校正,总共超过了1700小时。(大工程)

3.2. 数据集统计信息Dataset Statistics

        图3显示了不同类别的分布,其中我们还包含根类别作为x轴上的标签。 地面班级、道路、人行道、建筑物、植被和地形是最常见的类别。 摩托车手很少出现,但仍有10万点以上的注释。

        类的不平衡计数对于自然环境中捕获的数据集很常见,有些类总是代表不足,因为它们并不经常发生。 因此,不平衡的类分布是方法必须掌握的问题的一部分。 总体而言,类之间的分布和相对差异在其他数据集中非常相似,例如Cityscapes[10]。

4. 语义分割的评价Evaluation of Semantic Segmentation

        在本节中,我们提供了几种最先进的单次扫描语义分割方法的评估。我们还提供利用多次扫描序列提供的信息的实验。

4.1. 单次扫描实验Single Scan Experiments

        任务和指标。在点云的语义分割中,我们想要推断每个三维点的标签。因此,所有评估方法的输入都是三维点的坐标列表及其反射,即反射激光束的强度取决于被击中表面的特性。然后每种方法都应该为扫描的每个点输出一个标签,即旋转 LiDAR 传感器的一整圈。

        为了评估标记性能,我们依赖于所有类别中普遍应用的平均 Jaccard 指数或平均交叉联合 (mIoU) 度量 [15],由下式给出

         其中TP_{c}FP_{c}FN_{c}对应于类c的真正、假正、假负预测的数量,C是类的数量。

        由于类 other-structure 和 other-object 要么只有几个点,要么过于多样化,类内差异很大,我们决定不在评估中包括这些类。因此,我们使用 25 个而不是 28 个类,在训练和推理过程中忽略异常值、其他结构和其他对象。

        此外,我们不能指望通过一次扫描就能区分运动物体和非运动物体,因为这种 Velodyne LiDAR 无法像利用多普勒效应的雷达那样测量速度。因此,我们将移动类与相应的非移动类结合起来,总共有 19 个类用于训练和评估。

        先进性评估。点云的语义分割或逐点分类是一个长期存在的话题 [2],传统上使用特征提取器(例如 Spin Images [29])结合传统分类器(例如支持向量机 [1])来解决这个问题 [1] ] 甚至是语义哈希 [4]。许多方法使用条件随机场 (CRF) 来强制相邻点的标签一致性 [56、37、36、38、63]。

        随着图像分类深度学习方法的出现,特征提取和分类的整个管道被端到端深度神经网络所取代。 基于Voxel的方法将点云转换为体素网格,然后将卷积神经网络(CNN)应用3D卷积对象分类[34]和语义分割[26]是首批被研究的模型之一,因为它们允许利用以图像闻名的架构和见解。

        为了克服基于体素表示的局限性,例如当体素网格的分辨率增加时内存消耗激增,最近的方法要么使用 CRF 对体素预测 [53] 进行上采样,要么使用不同的表示,例如更有效的空间细分[30, 44, 64, 59, 21],渲染的 2D 图像视图 [7],图形 [31, 54],splats [51],甚至直接点 [41, 40, 25, 22, 43, 28, 14]。

        基线方法。我们为数据集中点云的语义分割提供了六种最先进的体系结构的结果:PointNet [40]、PointNet++[41]、Tangent Convolutions [52]、SPLATNet [51]、Superpoint Graph [31]和SqueezeSeg (V1和V1此外,我们还研究了SqueezeSeg的两个扩展:DarkNet21Seg和DarkNet53Seg.

        PointNet[40]和 PointNet++[41]使用原始无序点云数据作为输入。 这些方法的核心是最大池化,以获得一个顺序不变运算,它在形状的语义分割和其他几个基准方面表现优秀。 然而,由于这种性质,PointNet无法捕捉特征之间的空间关系。 为了缓解这一点,PointNet++[41]将单个PointNets应用于本地社区,并使用分级方法将其输出结合起来。 这使它能够构建复杂的层次特征,捕获本地细粒度和全球上下文信息。

        Tangent卷积 [52] 还通过直接在表面上应用卷积神经网络来处理非结构化点云。这是通过假设数据是从光滑表面采样并将切线卷积定义为应用于局部表面在每个点到切平面的投影的卷积来实现的。

        SPLATNet [51]采取的方法类似于上述的音素化方法,代表高维稀疏晶格中的点云。与基于体素的方法一样,这种方法在计算和内存成本方面都不能很好地扩展,因此,它们利用仅在占用的晶格零件上工作的双边卷积[27]来利用这种表示的稀疏性。

        与PointNet类似,Superpoint Graph [31]通过将几何上齐次的点组汇总为超点来捕获局部关系,这些超点后来被本地PointNets嵌入。结果是一个超点图形表示比利用超点之间的上下文关系的原始点云更紧凑和丰富。

        SqueezeSeg [60,61]还将点云离散化,使利用旋转LiDAR的传感器几何形状对点云数据应用2D卷积成为可能。在旋转LiDAR的情况下,可以使用球形投影将单个转弯的所有点投影到图像上。应用一个完全卷积的神经网络,最后用CRF滤波以平滑结果。由于SqueezeSeg的良好效果和快速训练,我们研究了模型参数数量对标记性能的影响。为此,我们使用了基于Darknet架构[42]的不同骨干,分别有21层和53层,以及25和5000万个参数。我们进一步消除了在体系结构中使用的垂直降采样。

        我们修改了可用的实现,以便在我们的大规模数据集上训练和评估这些方法。 请注意,迄今为止,大多数这些方法只在形状[8]或RGB-D室内数据集上进行评估。 然而,一些方法[40,41]只能在相当大的减速至50 000点的内存限制下运行。

        结果和讨论:表2显示了直接使用点云信息[40, 41, 51, 52, 31]或点云投影[60]的各种方法的基线实验结果。 结果表明,目前的点云语义分割技术在我们的数据集的大小和复杂性方面还不够。

        我们认为,这主要是由于使用架构的容量有限(见表7),因为这些方法的参数数量远远低于主导图像语义分割网络中使用的参数数量。 如上所述,我们添加了DarkNet21Seg和DarkNet53Seg来测试这一假设,结果表明,这种简单的修改将精度从SqueezSeg的29.5%提高到DarkNet21Seg的47.4%,而DarkNet53Seg的49.9%。

        另一个原因是 LiDAR 生成的点云相对稀疏,尤其是随着与传感器的距离增加。这在 SqueezeSeg 中得到了部分解决,它利用旋转扫描仪捕获数据的方式来生成密集范围图像,其中每个像素大致对应于扫描中的一个点。

        图 4 进一步分析了这些影响,其中绘制了 mIoU w.r.t.到传感器的距离。它表明所有方法的结果都随着距离的增加而变差。这进一步证实了我们的假设,即稀疏性是远距离结果较差的主要原因。然而,结果还表明,一些方法,如 SPGraph,受距离相关稀疏性的影响较小,这可能是未来研究结合两种范式的一个有前途的方向。

         特别是摩托车手和卡车等例子很少的班级,似乎对所有办法都比较困难。 但是,在单点云中只有少量点数的课程,比如自行车和杆子,也是艰难的课程。

        最后,具有 49.9% mIoU 的最佳性能方法 (DarkNet53Seg) 仍远未达到与基于图像的方法相当的结果,例如,在 Cityscapes 基准 [10] 上达到 80%。

4.2. 多次扫面实验Multiple Scan Experiments

        任务和指标。在这个任务中,我们允许方法利用来自多个过去扫描序列的信息来改进当前扫描的分割。我们还希望这些方法能够区分移动类和非移动类,即必须预测所有 25 个类,因为该信息应该在过去多次扫描的时间信息中可见。该任务的评估指标仍然与单次扫描情况相同,即,无论使用多少过去的扫描来计算结果,我们都会评估当前扫描的平均 IoU。

        基线.我们利用顺序信息,将5个扫描合并为一个大点云,即时间戳t的当前扫描和时间戳t − 1、.、t − 4之前的4个扫描。我们评估DarkNet53Seg和TangentConv,因为这些方法可以处理更多的点而不会降低点云采样,并且仍可以在合理的时间内进行训练。

        结果与讨论。表 4 显示了可移动类的每类结果和所有类的平均 IoU (mIoU)。对于每种方法,我们在行的上部显示非移动(无阴影)的 IoU,在行的下部显示移动物体的 IoU(阴影)。其余静态类的性能类似于单次扫描结果,我们参考了包含所有类的表格的补充。

        投影方法比基于点的方法性能更好的总趋势仍然显而易见,这也可以归因于较大量的参数,如在单个扫描案例中。 这两种方法都显示了移动和非移动对象的分离困难,这可能是由于我们的设计决定将多个扫描聚合到单个大点云中造成的。 结果表明,特别是自行车手和摩托车手从来没有正确分配非移动类,这很可能是由一般稀疏的对象点云产生的结果。

        我们期望新的方法可以明确地利用顺序信息,方法是使用多个输入流到体系结构,甚至是循环神经网络来解释时间信息,这可能再次开启一条新的研究路线。

 5. 补全语义场景评价方法Evaluation of Semantic Scene Completion      

        在利用一系列过去的扫描来进行语义点云分割之后,我们现在展示了一个利用未来扫描的场景。由于它的顺序性质,我们的数据集为3 D语义场景完成的任务提供了独特的扩展机会。注意,这是这项任务的第一个现实世界户外标杆。现有点云数据集不能用于解决此任务,因为它们不允许聚合在空间和时间上都足够密集的标记点云。

        在语义场景补全中,一个基本问题是获得真实世界数据集的地面真实标签。在 NYUv2 [48] 的情况下,使用 Kinect 传感器捕获的 RGB-D 图像将 CAD 模型拟合到场景 [45] 中。新方法通常会在更大但合成的 SUNCG 数据集 [49] 上证明它们的有效性。但是,仍然缺少结合了合成数据集的规模和真实世界数据的使用的数据集。

        在我们提出的数据集的情况下,携带 LiDAR 的汽车经过场景中的 3D 对象,从而记录它们的背面,这些背面由于自遮挡而隐藏在初始扫描中。这正是语义场景完成所需的信息,因为它包含所有对象的完整 3D 几何形状,而它们的语义由我们的密集注释提供。

        数据集生成。通过在汽车前方的预定义区域中叠加大量的未来激光扫描,我们可以生成与语义场景完成任务相对应的输入和目标对。正如 Song 等人所提议的那样。 [49],我们用于场景完成任务的数据集是 3D 场景的体素化表示。

        我们选择汽车前方 51.2m 的体积,每边 25.6m,高度 6.4m,体素分辨率为 0.2m,这导致预测体积为 256×256×32 体素。我们根据对体素内所有标记点的多数投票为每个体素分配一个标签。不包含任何点的体素被标记为空。

        为了计算哪些体素属于被遮挡空间,我们通过追踪射线检查汽车的每个姿势哪些体素对传感器可见。一些体素,例如那些内部物体或墙后的物体永远不可见,因此我们在训练和评估期间忽略它们。

        总体而言,我们提取了 19 130 对输入和目标体素网格用于训练,815 对用于验证,3 992 对用于测试。对于测试集,我们只提供未标记的输入体素网格并保留目标体素网格。图 5 显示了输入和目标对的示例。

        

        任务和指标。在语义场景补全中,我们感兴趣的是从单个初始扫描中预测特定体积内的完整场景。更具体地说,我们使用体素网格作为输入,其中每个体素被标记为空或被占用,具体取决于它是否包含激光测量。对于语义场景补全,需要预测一个体素是否被占用及其在完成场景中的语义标签。

        对于评估,我们遵循 Song 等人的评估协议。 [49] 并计算场景完成任务的 IoU,它只将体素分类为被占用或空,即忽略语义标签,以及 mIoU(1)用于相同 19 的语义场景完成任务用于单次扫描语义分割任务的类(参见第 4 节)。

        最先进的方法。早期的方法解决了场景完成的任务,要么没有预测语义 [16],从而没有提供对场景的整体理解,要么试图将固定数量的网格模型拟合到场景几何体 [20],这限制了该方法。

        宋等人[49]是第一个以端到端方式处理语义场景完成的任务的人。 他们的工作产生了对该领域的很多兴趣,产生了结合使用颜色和深度信息的模型[33 , 18]或通过引入子歧管卷积来解决稀疏3D特征图的问题[65]或通过部署多阶段粗细训练方案来增加输出分辨率[12]。 其他工作实验了新的编码器-解码器CNN架构,并通过添加对抗性损耗组件来改进损耗项[58]。

        基线方法。我们报告了四种语义场景完成方法的结果。在第一种方法中,我们应用没有翻转 TSDF 的 SSCNet [49] 作为输入特征。这对性能的影响很小,但由于更快的预处理 [18],显着加快了训练时间。然后我们使用双流 (TS3D) 方法 [18],它利用来自与输入激光扫描相对应的 RGB 图像的附加信息。因此,RGB 图像首先由 2D 语义分割网络处理,使用在 Cityscapes 上训练的 DeepLab v2 (ResNet-101) [9] 方法生成语义分割。来自单次激光扫描的深度信息和从 RGB 图像推断的标签在早期融合中结合。此外,我们分两步修改 TS3D 方法:首先,直接使用来自最好的基于 LiDAR 的语义分割方法(DarkNet53Seg)的标签,其次,通过 SATNet [33] 交换 3D-CNN 主干。

        结果与讨论表 5 显示了每个基线的结果,而补充报告中报告了各个类别的结果。 TS3D 网络结合了 RGB 图像的 2D 语义分割,其性能类似于仅使用深度信息的 SSCNet。然而,直接在点云上使用最佳语义分割的使用在语义场景完成(TS3D + DarkNet53Seg)上略优于 SSCNet。请注意,前三种方法基于 SSCNet 的 3D-CNN 架构,该架构在前向传播中执行 4 倍下采样,因此无法处理场景的细节。在我们的最终方法中,我们将 TS3D + DarkNet53Seg 的 SSCNet 主干与 SATNet [33] 交换,后者能够处理所需的输出分辨率。由于内存限制,我们在训练期间使用随机裁剪。在推理过程中,我们将每个体积分成六个相等的部分,分别对它们进行场景补全,然后融合它们。这种方法比基于 SSCNet 的方法执行得更好。

        除了处理目标分辨率外,当前模型的一个挑战是远场激光输入信号的稀疏性,如图 5 所示。要在远场获得更高分辨率的输入信号,方法必须利用更有效地从随每次激光扫描提供的高分辨率 RGB 图像中获取信息。

6. 结论和展望Conclusion and Outlook

        在这项工作中,我们提出了一个大规模数据集,显示了点云序列的逐点注释的前所未有的规模。我们为三个任务提供了一系列不同的基线实验:(i)使用单次扫描的语义分割,(ii)使用多次扫描的语义分割,以及(iii)语义场景补全。

        在未来的工作中,我们还计划在整个序列上提供实例级注释,即我们希望在一次扫描中区分不同的对象,但也会随着时间的推移识别同一对象。这将能够研究序列上的时间实例分割。然而,我们也看到了基于我们标记工作的其他新任务的潜力,例如语义 SLAM 的评估。

 

整理不易,求点赞!

        

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_53086461/article/details/128166420

#每天一篇论文 251/365 semantickitti:一个lidar帧语义场景理解的数据集-爱代码爱编程

SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences 摘要 语义场景理解对于各种应用都是非常重要的。特别是,自动驾驶汽车

三维点云语义分割【综述】 ——Deep Learning for 3D Point Clouds: A Survey-爱代码爱编程

3D POINT CLOUD SEGMENTATION 3D Semantic SegmentationProjection-based NetworksPoint-based NetworksInstance SegmentationProposal-based MethodsProposal-free MethodsPart Segmentat

【点云】SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences-爱代码爱编程

目录   摘要 介绍 SemanticKITTI Dataset 标注过程 摘要 自动驾驶需要对附近的目标和表面有细颗粒度(fine-grained)的理解。光检测和范围(LiDAR)提供了关于环境准确的几何信息。目前,缺少一个基于移动LiDAR大规模数据集。我们标注了KITTI Vision Odemetry Benchmark的所有序列,

【点云系列】综述: Deep Learning for 3D Point Clouds: A Survey-爱代码爱编程

文章目录 起因题目摘要1 简介2 背景2.1 数据集2.2 衡量指标3 3D形状分类3.1基于多视角的方法3.2基于体素的方法3.3 基于点的方法3.3.1逐点MLP网络3.3.2基于卷积的网络3.3.3基于图的网络3.3.4基于数据索引的方法3.3.5其他方法3.4小结4 3D物体检测与跟踪4.1 3D物体检测4.1.1 基于候选区域的方法4.1

【论文阅读笔记】NeurIPS2020文章列表Part2-爱代码爱编程

Online Multitask Learning with Long-Term MemoryFewer is More: A Deep Graph Metric Learning Perspective Using Fewer ProxiesAdaptive Graph Convolutional Recurrent Network for Traffi

计算机视觉论文-2021-06-01-爱代码爱编程

本专栏是计算机视觉方向论文收集积累,时间:2021年6月1日,来源:paper digest 欢迎关注原创公众号 【计算机视觉联盟】,回复 【西瓜书手推笔记】 可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址)  1, TITLE: STRIDE Along Spectrahedral Verti

CVPR 2021最全论文开放下载!附pdf下载链接!-爱代码爱编程

CVPR 2021全部论文已开放,pdf下载链接: 链接: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA 提取码: vwkx (4.3G) 论文更新地址:https://github.com/Sophia-11/Awesome-CVPR-Paper/blob/master/CVPR2021/C

计算机视觉论文-2021-07-07-爱代码爱编程

本专栏是计算机视觉方向论文收集积累,时间:2021年7月7日,来源:paper digest 欢迎关注原创公众号 【计算机视觉联盟】,回复 【西瓜书手推笔记】 可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址) 1, TITLE: Morphological Classification of G

今日arXiv精选 | 35篇顶会论文:ICCV/ CIKM/ ACM MM-爱代码爱编程

 关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者。 TSI: an Ad Text Strength Indicator using Text-to-CTR and Semantic-Ad-Similarity Comment: Accepted for publica

计算机视觉论文-2021-09-14-爱代码爱编程

本专栏是计算机视觉方向论文收集积累,时间:2021年9月14日,来源:paper digest 欢迎关注原创公众号 【计算机视觉联盟】,回复 【西瓜书手推笔记】 可获取我的机器学习纯手推笔记! 直达笔记地址:机器学习手推笔记(GitHub地址) 1, TITLE: COSMic: A Coherence-Aware Genera

Deep Learning for 3D Point Clouds: A Survey(一)-爱代码爱编程

摘要 点云学习最近因其在计算机视觉、自动驾驶和机器人技术等许多领域的广泛应用而受到越来越多的关注。作为人工智能的主导技术,深度学习已成功用于解决各种二维视觉问题。然而,由于使用深度神经网络处理点云所面临的独特挑战,点云的深度学习仍处于起步阶段。最近,点云的深度学习变得更加蓬勃发展,提出了许多方法来解决该领域的不同问题。为了激发未来的研究,本文全面回顾了点

SemanticKITTI 数据集解析 - 3D语义分割-爱代码爱编程

SemanticKITTI 数据集解析 - 3D语义分割 1. 数据集简介2. 数据集内容3. 数据集下载 1. 数据集简介 文章标题SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences (2019) 文章链接https://arxiv.or

深度学习(12):SemanticKITTI论文翻译与学习-爱代码爱编程

        SemanticKITTI论文是发表在CVPR 2019上的一篇在KITTI Vision Odometry Benchmark数据集上制作语义分割数据集SemanticKITTI的文章,为基于车载激光雷达语义分割提供了大量的数据;作者单位是德国波恩大学 SemanticKITTI论文地址:https://arxiv.org/abs/19

CVPR'22 最新132篇论文分方向整理|包含目标检测、图像处理、医学影像等28个方向...-爱代码爱编程

本文首发极市平台公众号,转载请获得授权并标明出处。 CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%。在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 最新论文进行追踪,包括分研究方向的论文、代码汇总以及论文技术直播分享。 CVPR 2022 论文

【论文翻译】nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles-爱代码爱编程

论文链接:https://arxiv.org/pdf/2106.11810.pdf 标题 nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles nuPlan:基于机器学习的闭环规划benchmark,用于自动驾驶车辆 1 摘要/Abstract In th

(cvpr 2020) randla-net: efficient semantic segmentation of large-scale point clouds_fish小余儿的博客-爱代码爱编程

Abstract 我们研究了大规模3D点云的有效语义分割问题。通过依赖昂贵的采样技术或计算量大的预处理/后处理步骤,大多数现有方法只能在小规模点云上进行训练和操作。在本文中,我们介绍了RandLA-Net,这是一种高效且轻量级的神经架构,可直接推断大规模点云的每点语义。我们方法的关键是使用随机点采样而不是更复杂的点选择方法。尽管计算和内存效率非常高,但随

semantickitti:development kit的学习记录-readme.md阅读_ccchester的博客-爱代码爱编程

前言 http://www.semantic-kitti.org/resources.html 最近有个困惑,怎样将点云数据中带有不同标签的点分开处理,比如一帧点云中,有带有“人”这个标签的点,如何获取到这个标签的点以便