代码编织梦想

原文链接:https://arxiv.org/abs/1612.00593

题目:PointNet:用于3D分类和分割的点集深度学习

来源:cvpr 2017

0、摘要

        点云是一类重要的几何数据结构。由于其格式不规则,大多数研究人员将此类数据转换为规则的 3D 体素网格或图像集合。然而,这会使数据不必要地庞大并导致问题。在本文中,我们设计了一种直接使用点云的新型神经网络,它很好地尊重了输入中点的排列不变性。我们的网络名为 PointNet,为从对象分类、部分分割到场景语义解析的应用程序提供统一的架构。虽然简单,但 PointNet 非常高效和有效。从经验上看,它表现出与现有技术相当甚至更好的强大性能。从理论上讲,我们提供分析以了解网络学到了什么 以及 为什么网络在输入扰动和损坏方面是稳健的。

1、引言

        在本文中,我们探索了能够推理 3D 几何数据(例如点云或网格)的深度学习架构。典型的卷积架构需要高度规则的输入数据格式,例如图像网格或 3D 体素的格式,以便执行权重共享和其他内核优化。由于点云或网格不是常规格式,大多数研究人员通常将此类数据转换为常规 3D 体素网格或图像集合(例如,视图),然后再将它们提供给深度网络架构。然而,这种数据表示转换使生成的数据不必要地庞大——同时还引入了量化伪影,这可能模糊了数据的自然不变性。

        出于这个原因,我们专注于使用简单点云的 3D 几何的不同输入表示 - 并将我们得到的深度网络命名为 PointNets。点云是简单而统一的结构,避免了网格的组合不规则性和复杂性,因此更容易学习。然而,PointNet 仍然必须尊重这样一个事实,即点云只是一组点,因此对其成员的排列不变,需要在网络计算中进行某些对称化。还需要考虑刚性运动的进一步不变性。

        我们的 PointNet 是一个统一的架构,它直接将点云作为输入并输出整个输入的类标签或输入的每个点的每个点段/部分标签。我们网络的基本架构非常简单,因为在初始阶段每个点都以相同且独立的方式处理。在基本设置中,每个点仅由其三个坐标(x、y、z)表示。可以通过计算法线和其他局部或全局特征来添加额外的维度。

        我们方法的关键是使用单个对称函数,即最大池化。网络有效地学习了一组优化函数/标准,这些函数/标准选择点云中有趣或信息丰富的点,并对选择它们的原因进行编码。网络的最终完全连接层将这些学习到的最优值聚合到整个形状的全局描述符中,如上所述(形状分类)或用于预测每个点标签(形状分割)。

        我们的输入格式很容易应用刚性或仿射变换,因为每个点都是独立变换的。因此,我们可以添加一个数据依赖的空间变换网络,尝试在 PointNet 处理数据之前对数据进行规范化,以进一步改善结果。

        我们对我们的方法进行了理论分析和实验评估。我们表明我们的网络可以逼近任何连续的集合函数。更有趣的是,事实证明我们的网络通过一组稀疏的关键点学习总结输入点云,根据可视化,这些关键点大致对应于对象的骨架。理论分析提供了一个理解,为什么我们的 PointNet 对于输入点的小扰动以及通过点插入(异常值)或删除(缺失数据)造成的损坏具有高度鲁棒性。

        在从形状分类、部分分割到场景分割的许多基准数据集上,我们通过实验将我们的 PointNet 与基于多视图和体积表示的最先进方法进行了比较。在统一的架构下,我们的 PointNet 不仅速度更快,而且表现出与现有技术相当甚至更好的强大性能。

        • 我们设计了一种适合使用3D无序点集的新型深度网络架构;

        •我们展示如何训练这样的网络来执行3D形状分类、形状部分细分和场景语义解析任务;

        •我们对方法的稳定性和效率提供彻底的经验和理论分析;

        •我们展示了网络中选定的神经元计算的3D特征,并为其性能制定直观的解释。

        神经网络处理无序集合的问题是一个非常普遍和基本的问题–我们期望我们的想法也可以传递到其他领域。

2、相关工作

        点云特征:大多数现有特征都是针对特定任务手工制作的。点特征通常对点的某些统计特性进行编码,并设计为对某些变换具有不变性,这些变换通常被分类为内在 [2, 24, 3] 或外在 [20, 19, 14, 10, 5]。它们还可以分为局部特征和全局特征。对于特定任务,找到最佳特征组合并非易事。

        关于3 D数据的深度学习:3D数据具有多种流行的表示形式,导致各种学习方法。Volumetric CNNs: [28,17,18]是在体素化形状上应用3D卷积神经网络的先驱。然而,由于数据稀疏和三维卷积的计算成本,体积表示受其分辨率的约束。FPNN [13]和Vote3D [26]提出了处理稀疏问题的特殊方法;但是,它们的操作仍然是稀疏的,处理很大的点云是一个挑战。Multiview 
CNNs:
[23,18]尝试将3D点云或形状渲染为2D图像,然后应用2D conv网络对它们进行分类。利用精心设计的图像CNN,这一系列方法在形状分类和检索任务方面取得了显着的性能[21]。但是,将它们扩展到场景理解或其他3D任务(如点分类和形状完成)并不重要。Spectral CNNs:一些最新作品[4,16]在网格上使用光谱CNN。然而,这些方法目前受到有机物体等流形网格的约束,如何扩展到家具等非等距形状并不明显。Feature-based DNNs:[6,8]首先通过提取传统形状特征将3D数据转换为矢量,然后使用完全连接的网络对形状进行分类。我们认为它们受到提取特征的表示能力的约束。

        无序集上的深度学习:从数据结构的角度来看,点云是向量的无序集。虽然深度学习中的大多数工作都集中在常规输入表示上,例如序列(在语音和语言处理中)、图像和体积(视频或 3D 数据),但在点集深度学习方面所做的工作并不多。Oriol Vinyals 等人 [25] 最近的一项工作研究了这个问题。他们使用具有注意力机制的读取-处理-写入网络来消耗无序输入集,并表明他们的网络具有对数字进行排序的能力。然而,由于他们的工作侧重于通用集合和 NLP 应用,因此集合中缺少几何的作用。

3.、问题陈述Problem Statement

        我们设计了一个直接使用无序点集作为输入的深度学习框架。点云表示为一组 3D 点 {Pi| i = 1, ..., n},其中每个点 Pi 是其 (x, y, z) 坐标加上额外特征通道(如颜色、法线等)的向量。为简单明了,除非另有说明,我们仅使用 (x, y, z) 坐标作为我们点的通道。

        对于对象分类任务,输入点云要么直接从形状中采样,要么从场景点云中预先分割。我们提出的深度网络为所有 k 个候选类别输出 k 个分数。对于语义分割,输入可以是用于部分区域分割的单个对象,也可以是用于对象区域分割的 3D 场景的子体积。我们的模型将为 n 个点中的每一个和 m 个语义子类别中的每一个输出 n × m 分数。

4. 点集上的深度学习 Deep Learning on Point Sets

        我们的网络架构(第4.2节)受到\mathbb{R}^{n} (第4.1节)中的点集属性的启发。

4.1. \large \mathbb{R}^{n}中点集的性质 Properties of Point Sets in \large \mathbb{R}^{n}

 我们的输入是来自欧几里德空间的点的子集。它具有三个主要属性:

• 无序。与图像中的像素阵列或体积网格中的体素阵列不同,点云是一组没有特定顺序的点。换句话说,一个消耗 N 个 3D 点集的网络需要对 N!按数据馈送顺序排列输入集。

• 点之间的相互作用。这些点来自具有距离度量的空间。这意味着点不是孤立的,相邻的点形成一个有意义的子集。因此,该模型需要能够从附近的点捕获局部结构,以及局部结构之间的组合相互作用。

• 变换下的不变性。作为一个几何对象,点集的学习表示应该对某些变换是不变的。例如,一起旋转和平移点不应修改全局点云类别或点的分割。

4.2. PointNet 结构 PointNet Architecture

         我们的完整网络架构如图 2 所示,其中分类网络和分割网络共享大部分结构。请阅读图 2 的标题以了解流程。

        我们的网络具有三个关键模块:作为对称函数的最大池化层,用于聚合来自所有点的信息、局部和全局信息组合结构,以及两个对齐输入点和点特征的联合对齐网络。

(最大池化用作对称函数:因为点云的输入是无序的,作者想要找到一个方法,输入的顺序不影响结果,这里用的是max pool。

第一个T-net,这里可以理解为将点云旋转一个角度,旋转后的点云类别不发生改变,所以这个T-net就是根据输入得到一个旋转矩阵,这个旋转矩阵旋转原来的点云。

第二个T-net,可以理解为将特征向量旋转一个角度,也就是对齐。同样这个旋转矩阵是根据输入经过T-net得到的参数,不同输入计算出来的旋转矩阵不同。

针对于分类任务,也就是蓝色部分,经过max pool得到全局特征,全局特征接入多层敢直接就可以实现分类。

针对语义分割更为复杂,将每个点的特征64维+全局特征1024维=1088维度,然后经过多层感知机生成n*m,n是点云个数,m是类别)

4.2.1无序输入的对称函数

        为了使模型对输入排列不变,存在三种策略:1)将输入排序为规范顺序; 2) 将输入视为训练 RNN 的序列,但通过各种排列扩充训练数据; 3) 使用简单的对称函数聚合来自每个点的信息。这里,一个对称函数将 n 个向量作为输入并输出一个对输入顺序不变的新向量。例如,+ 和 ∗ 运算符是对称二元函数。

        虽然排序听起来像是一个简单的解决方案,但在高维空间中实际上不存在相对稳定的排序。一般意义上的点扰动。这可以很容易地用矛盾来证明。如果存在这样的排序策略,则它定义了高维空间和一维实线之间的双射映射。不难看出,要求排序稳定 w.r.t 点扰动等同于要求该地图在维度减少时保持空间邻近性,这是在一般情况下无法实现的任务。因此,排序并不能完全解决排序问题,并且由于排序问题持续存在,网络很难学习从输入到输出的一致映射。如实验所示(图 5),我们发现直接在排序的点集上应用 MLP 表现不佳,但比直接处理未排序的输入要好一些。

        使用RNN的想法认为点集是一个顺序信号,并希望通过训练随机排列序列的RNN , RNN将变得不变的输入顺序。 然而,作者在“OrderMatters” [25]中表明,秩序确实重要,不能完全省略。 虽然RNN对长度较小(几十个)的序列的输入顺序具有相对良好的稳健性,但很难将输入元素缩放到数千个,这是点集的通用大小。 经验表明,基于RNN的模型性能不如我们提出的方法(图5 )。

        我们的想法是通过在集合中对变换元素施加对称函数来近似定义在点集上的一般函数:

根据经验,我们的基本模块非常简单:我们通过多层感知器网络来近似 h,通过单个变量函数和最大池化函数的组合来近似 g。通过实验发现这很有效。通过 h 的集合,我们可以学习多个 f 来捕获集合的不同属性。

        虽然我们的关键模块看起来很简单,但它具有有趣的属性(请参阅第 5.3 节)并且可以在一些不同的应用程序中实现强大的性能(请参阅第 5.1 节)。由于我们模块的简单性,我们还能够提供第 4.3 节中的理论分析。       

4.2.2 局部和全局信息聚合:

        上一节的输出形成一个向量 [f1, . . . , fK],这是输入集的全局签名。我们可以很容易地在形状全局特征上训练 SVM 或多层感知器分类器进行分类。然而,点分割需要局部和全局知识的结合。我们可以通过一种简单而高效的方式来实现这一点。

        我们的解决方案如图 2(分割网络)所示。在计算出全局点云特征向量之后,我们通过将全局特征与每个点特征连接起来,将其反馈给每个点特征。然后我们根据组合的点特征提取新的每点特征——这次每点特征都知道局部和全局信息。

        通过这种修改,我们的网络能够预测依赖于局部几何和全局语义的每点量。例如,我们可以准确地预测每个点的法线(图中的补充),验证网络能够从该点的本地邻域总结信息。在实验过程中,我们还表明我们的模型可以在形状部分分割和场景分割上达到最先进的性能。

4.2.3 联合对齐网络

        如果点云经历某些几何变换,例如刚性变换,则点云的语义标记必须是不变的。因此,我们期望我们的点集学习到的表示对于这些变换是不变的。

        一个自然的解决方案是在特征提取之前将所有输入集对齐到规范空间。贾德伯格等人。 [9] 介绍了空间变换器的想法,通过采样和插值来对齐 2D 图像,这是通过在 GPU 上实现的专门定制的层来实现的。

        与 [9] 相比,我们的点云输入形式使我们能够以更简单的方式实现这一目标。我们不需要发明任何新层,也不需要像图像情况那样引入别名。我们通过迷你网络(图 2 中的 T-net)预测仿射变换矩阵,并将该变换直接应用于输入点的坐标。迷你网络本身类似于大网络,由点独立特征提取、最大池化和全连接层等基本模块组成。有关 T-net 的更多详细信息,请参阅补充资料。

        这个想法也可以进一步扩展到特征空间的对齐。我们可以在点特征上插入另一个对齐网络并预测特征变换矩阵以对齐来自不同输入点云的特征。但是特征空间中的变换矩阵比空间变换矩阵维数高很多,大大增加了优化的难度。因此,我们在 softmax 训练损失中添加了一个正则化项。我们将特征变换矩阵约束为接近正交矩阵:

        其中 A 是迷你网络预测的特征对齐矩阵。正交变换不会丢失输入中的信息,因此是理想的。我们发现通过添加正则化项,优化变得更加稳定,我们的模型获得了更好的性能。

4.3 理论分析 

        (这一小节其实没看懂)

        通用的逼近能力 我们首先展示了我们的神经网络对连续集函数的通用逼近能力。通过集合函数的连续性,直观地,对输入点集的小扰动不应该大大改变函数值,例如分类或分割分数。

        形式上,令 X = {S : S ⊆ [0, 1]m 和 |S| = n}, f : X → R 是 X 上的连续集函数 w.r.t 到 Hausdorff 距离 dH(·,·), 即∀ > 0, ∃δ > 0, 对于任何 S, S ∈ X, 如果 dH (S, S) < δ,则 |f(S) − f(S)| <。我们的定理表明,如果最大池化层有足够的神经元,我们的网络可以任意近似 f,即 (1) 中的 K 足够大。

        定理 1. 假设 f : X → R 是连续集函数 w.r.t Hausdorff 距离 dH(·,·)。 ∀ > 0, ∃ 一个连续函数 h 和一个对称函数 g(x1, . . . , xn) = γ ◦ MAX,这样对于任何 S ∈ X,

        这个定理的证明可以在我们的补充材料中找到。关键思想是,在最坏的情况下,网络可以通过将空间划分为相等大小的体素来学习将点云转换为体积表示。然而,在实践中,网络学习了一种更为智能的空间探测策略,正如我们在点函数可视化中看到的那样。

        瓶颈维度和稳定性 理论上和实验上我们发现,我们的网络的表达性受到最大池化层的维度的强烈影响,即K in(1)。 在这里,我们提供了一个分析,它还揭示了与我们模型稳定性相关的属性。

        我们定义 u = MAX xi∈S {h(xi)} 为 f 的子网络,它将 [0, 1]m 中的点集映射到 K 维向量。以下定理告诉我们,输入集中的小损坏或额外噪声点不太可能改变我们网络的输出:

        定理 2. 假设 u : X → RK 使得 u = MAX xi∈S {h(xi)} 和 f = γ ◦ u。然后,

        我们解释了该定理的含义。 (a) 表示如果 CS 中的所有点都被保留,则 f(S) 在输入损坏之前保持不变;它也没有变化,额外的噪声点高达 NS。 (b) 表示 CS 仅包含有限数量的点,由 (1) 中的 K 确定。换句话说,f(S) 实际上完全由小于或等于 K 个元素的有限子集 CS ⊆ S 决定。因此,我们将 CS 称为 S 的临界点集,将 K 称为 f 的瓶颈维度。

        结合 h 的连续性,这解释了我们的模型 w.r.t 点扰动、损坏和额外噪声点的稳健性。稳健性的获得类似于机器学习模型中的稀疏性原则。直觉上,我们的网络学习通过一组稀疏的关键点来总结形状。在实验部分,我们看到关键点构成了物体的骨架。

5、实验

        实验分为四个部分。首先,我们展示了 PointNets 可以应用于多个 3D 识别任务(第 5.1 节)。其次,我们提供详细的实验来验证我们的网络设计(第 5.2 节)。最后,我们可视化网络学习的内容(第 5.3 节)并分析时间和空间复杂度(第 5.4 节)。

5.1 应用

        在本节中,我们将展示如何训练我们的网络来执行 3D 对象分类、对象部分分割和语义场景分割。即使我们正在研究全新的数据表示(点集),我们也能够实现可比甚至是在多项任务的基准测试中表现更好。

        我们的网络学习了可用于对象分类的全局点云特性。 我们在ModelNet40[28]形状分类基准上评估了我们的模型。 来自40个人造物体类别的12,311个CAD模型,分为9,843个训练和2,468个测试。 虽然以前的方法专注于体积和模拟视图图像表征,但我们是第一个直接在原始点云上工作的人。

        我们根据面部面积在网格面上均匀采样 1024 个点,并将它们归一化为一个单位球体。在训练期间,我们通过沿上轴随机旋转对象并通过具有零均值和 0.02 标准差的高斯噪声来抖动每个点的位置来即时增强点云。

        在表 1 中,我们将我们的模型与以前的工作以及我们使用 MLP 对从点云中提取的传统特征(点密度、D2、形状轮廓等)的基线进行比较。我们的模型在基于 3D 输入(体积和点云)的方法中实现了最先进的性能。只有完全连接的层和最大池化,我们的网络在推理速度上获得了强大的领先优势,并且也可以很容易地在 CPU 中并行化。我们的方法和基于多视图的方法 (MVCNN [23]) 之间仍然存在很小的差距,我们认为这是由于丢失了渲染图像可以捕获的精细几何细节。

        3D 对象部分分割 部分分割是一项具有挑战性的细粒度 3D 识别任务。给定 3D 扫描或网格模型,任务是为每个点或面分配零件类别标签(例如椅子腿、杯柄)。

        我们评估来自 [29] 的 ShapeNet 零件数据集,其中包含来自 16 个类别的 16,881 个形状,总共注释了 50 个零件。大多数对象类别都标有两到五个部分。地面实况注释标记在形状上的采样点上。

        我们将零件分割制定为每点分类问题。评估指标是 mIoU 点数。对于类别 C 的每个形状 S,计算形状的 mIoU:对于类别 C 中的每个部分类型,计算真实值和预测之间的 IoU。如果 groundtruth 和预测点的并集为空,则将部分 IoU 计为 1。然后我们对类别 C 中所有部分类型的 IoU 进行平均,以获得该形状的 mIoU。为了计算该类别的 mIoU,我们取该类别中所有形状的 mIoU 的平均值。

        在本节中,我们将我们的分割版本 PointNet(图 2,分割网络的修改版本)与两种传统方法 [27] 和 [29] 进行比较,这两种方法都利用了逐点几何特征和形状之间的对应关系,以及我们自己的 3D CNN 基线。有关 3D CNN 的详细修改和网络架构,请参阅补充资料。

        在表 2 中,我们报告了每个类别和平均 IoU(%) 分数。我们观察到 2.3% 的平均 IoU 改进,并且我们的网络在大多数类别中都优于基线方法。

        我们还对模拟 Kinect 扫描进行实验,以测试这些方法的稳健性。对于 ShapeNet 零件数据集中的每个 CAD 模型,我们使用 Blensor Kinect 模拟器 [7] 从六个随机视点生成不完整的点云。我们使用相同的网络架构和训练设置在完整形状和部分扫描上训练我们的 PointNet。结果表明我们仅损失了 5.3% 的平均 IoU。在图 3 中,我们展示了完整数据和部分数据的定性结果。可以看出,虽然部分数据相当具有挑战性,但我们的预测是合理的。

        场景中的语义分割 我们的网络在零件分割可以很容易地扩展到语义场景分割,其中点标签成为语义对象类而不是对象部分标签。

        我们在斯坦福 3D 语义解析数据集 [1] 上进行了实验。该数据集包含 Matterport 扫描仪在 6 个区域(包括 271 个房间)中的 3D 扫描。扫描中的每个点都用来自 13 个类别(椅子、桌子、地板、墙壁等以及杂物)的语义标签之一进行注释。

        为了准备训练数据,我们首先按房间分割点,然后将房间样本成面积1米乘1米的区块。 我们训练我们的分割版本的 PointNet 来预测每个区块中的每个点类。 每个点由一个9dim向量表示的XYZ,RGB和房间的正常位置(从0到1)。 在训练时,我们随机抽样每个区块中的4096点。 在测试时,我们测试所有点。 我们遵循与[1]相同的协议,用于训练和测试。

        我们使用手工制作的点特征将我们的方法与基线进行比较。 基线提取相同的9dim局部特征和另外三个特征:局部点密度、局部曲率和法线。 我们使用标准MLP作为分类器。 结果如表3所示,其中我们的PointNet方法显著优于基线方法。 在图4中,我们显示定性分割结果。 我们的网络能够输出流畅的预测,并且能够对缺失点和堵塞进行稳健预测。

        基于我们网络的语义分割输出,我们进一步构建了一个使用连接组件进行对象建议的 3D 对象检测系统(详见补充)。我们在表 4 中与之前的最先进方法进行了比较。之前的方法基于滑动形状方法(使用 CRF 后处理),支持向量机在体素网格中的局部几何特征和全局房间上下文特征上进行训练。我们的方法在报告的家具类别上大大优于它。

5.2  架构设计分析

        在本节中,我们通过控制实验验证我们的设计选择。我们还展示了网络超参数的影响。

与替代顺序不变方法的比较

        如第 4.2 节所述,至少有三个选项可用于使用无序集合输入。我们使用 ModelNet40 形状分类问题作为比较这些选项的试验台,以下两个控制实验也将使用此任务。

        我们比较的基线(如图 5 所示)包括在 n×3 数组的未排序和排序点上的多层感知器,将输入点视为序列的 RNN 模型,以及基于对称函数的模型。我们试验的对称操作包括最大池化、平均池化和基于注意力的加权和。注意方法类似于 [25] 中的方法,其中从每个点特征预测标量分数,然后通过计算 softmax 跨点对分数进行归一化。然后根据归一化分数和点特征计算加权和。如图 5 所示,maxpooling 操作以较大的获胜幅度实现了最佳性能,这验证了我们的选择。

输入和特征转换的有效性

        在表 5 中,我们展示了我们的输入和特征转换(用于对齐)的积极影响。有趣的是,最基本的架构已经取得了相当合理的结果。使用输入转换可提高 0.8% 的性能。正则化损失对于更高维度的变换是必要的。通过结合变换和正则化项,我们实现了最佳性能。

鲁棒性测试

        我们展示了我们的 PointNet,虽然简单有效,但对各种输入损坏都很稳健。我们使用与图 5 的最大池化网络相同的架构。输入点被归一化为单位球体。结果如图 6 所示。

        至于缺失点,当缺失 50% 的点时,准确率仅下降 2.4% 和 3.8% w.r.t.最远的随机输入采样。我们的网络对异常点也很稳健,如果它在训练期间看到了异常点的话。我们评估了两个模型:一个在具有 (x, y, z) 坐标的点上训练;另一个关于 (x, y, z) 加上点密度。即使 20% 的点是异常值,该网络的准确率也超过 80%。图 6 右侧显示网络对点扰动具有鲁棒性。

5.3.可视化PointNet Visualizing PointNet

        在图 7 中,我们可视化了一些样本形状 S 的临界点集 CS 和上界形状 NS(如 Thm 2 中所讨论的)。两个形状之间的点集将给出完全相同的全局形状特征 f(S)。

        我们可以从图 7 中清楚地看到,那些对最大池化特征有贡献的关键点集 CS 总结了形状的骨架。上限形状 NS 说明了最大可能的点云,它给出与输入点云 S 相同的全局形状特征 f(S)。CS 和 NS 反映了 PointNet 的鲁棒性,这意味着丢失一些非关键点不会改变全局形状签名 f(S)。

        通过网络转发一个边长为2的立方体中的所有点,并选择点函数值(h1(p),h2(p),···,hK(p))为no的点p来构造NS大于全局形状描述符。

5.4.时空复杂度分析

        表 6 总结了我们的分类 PointNet 的空间(网络中的参数数量)和时间(浮点运算/样本)复杂性。我们还将 PointNet 与之前作品中一组具有代表性的基于体积和多视图的体系结构进行了比较。

        虽然 MVCNN [23] 和 Subvolume (3D CNN) [18] 实现了高性能,但 PointNet 在计算成本方面更高效(以 FLOPs/样本衡量:效率分别提高 141 倍和 8 倍)。此外,就网络中的#param 而言,PointNet 的空间效率比 MVCNN 高得多(参数少 17 倍)。此外,PointNet 更具可扩展性——它的空间和时间复杂度为 O(N)——与输入点的数量成线性关系。然而,由于卷积在计算时间上占主导地位,多视图方法的时间复杂度随图像分辨率呈正方形增长,而基于体积卷积的方法随体积大小呈三次方增长。

6、结论

        在这项工作中,我们提出了一种直接使用点云的新型深度神经网络 PointNet。我们的网络为许多 3D 识别任务提供了统一的方法,包括对象分类、部分分割和语义分割,同时在标准基准测试中获得了与现有技术相当或更好的结果。我们还提供理论分析和可视化来理解我们的网络。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_53086461/article/details/128320096

3d点云网络:pointnet:deep learning on point sets for 3d classification and segmentation-爱代码爱编程

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation PointNet用于3D分类和分割的点云深度学习网络 Stanfo

《pointnet:deep learning on point sets for 3d classification and segmentation》中文翻译_我脾气很好的博客-爱代码爱编程

                     PointNet:用于3D分类和分割的点集的深度学习  摘要:点云是几何数据结构的重要类型。 由于其格式不规则,大多数研究人员将这些数据转换为规则的三维体素网格或图像集合。 但是,这会导致数据不必要的庞大并导致问题。 在本文中,我们设计了一种直接消耗点云的新型神经网络,它很好地尊重了输入点中的点的置换不变性。 我

pointnet deep learning on point sets for 3d classification and segmentation_chenyutingzju的博客-爱代码爱编程

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation Abstract 由于点云数据的无序性,大多数研究者把它转化为规则

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation(2017)-爱代码爱编程

基础: Voxel:体素,是体积元素(Volume Pixel)的简称,是数字数据于三维空间分割上的最小单位,概念上类似二维空间的最小单位——像素,像素用在二维计算机图像的影像数据上。有些真正的三维显示器运用体素来描述它们的分辨率,举例来说:可以显示512×512×512体素的显示器。 点云的特征:几何数据结构、不规则、可以转换为3D体

论文笔记:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-爱代码爱编程

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation Charles R. Qi* Hao Su* Kaichun Mo Leonidas J. Guibas Stanford University 概述:

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation 论文阅读笔记-爱代码爱编程

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation ——论文阅读笔记 文章主要内容: 本文设计了一种新的直接消耗点云的神经网络,它很好地尊重了输入点的排列不变性。我们的网络名为PointNet,为从对象分类、部件分割到场景语义分析的应用程序提供了一个统

Pointnet: Deep Learning on Point Sets for 3D Classification and Segmentatio 论文笔记-爱代码爱编程

Pointnet: Deep Learning on Point Sets for 3D Classification and Segmentation 论文链接: https://arxiv.org/abs/1612.00593 一、 Problem Statement 多数研究人员把点云数据转化为规则的3D voxel grids 或者 coll

[PointNet] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation(CVPR. 2017)-爱代码爱编程

文章目录 1. Motivation2. Introduction and Related Work2.1 Introduction2.2 Related Work3. Contribution4. Method4.1. Properties of Point Sets in

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-爱代码爱编程

基本简介 论文下载地址:https://arxiv.org/abs/1612.00593 代码开源地址:https://github.com/charlesq34/pointnet 作者以及论文信息如下: 最近,开始研究基于3D点云的深度学习算法。PointNet 作为基于3D点的特征提取的开创性论文,非常有必要好好研究总结。在翻译论文时,会

【论文阅读】3D点云 -- PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-爱代码爱编程

前言 本博客详解遵从论文讲述的顺序。但我们要明确该论文的要点,以更好的阅读论文:针对点云的3个特性,pointnet设计的应对方法,以及设计理念。 点云的无序性:网络使用了对称函数 (maxpooling) 来降采样点云的特征点云的各点之间影响:网络将局部点的特征与 全局特征 进行concat,综合信息预测结果点云的几何变化不变性(刚性变换

PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation-爱代码爱编程

PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation PointNet:3D点集分类与分割深度学习模型摘要总结: 1.点云是一个重要的数据结构,所以有研究的必要。 2.点云有自己本身的特性,也就是 irregular format(格式不规则),之前的研究人员

pointnet: deep learning on point sets for 3d classifification and segmentation_weixin_42106556的博客-爱代码爱编程

PointNet: Deep Learning on Point Sets for 3D Classifification and Segmentation Charles R. Qi* Hao Su* Kaichun

vit 中的 token 改进版本:token mreging: your vit but faster 论文阅读笔记-爱代码爱编程

Vit 中的 Token 改进版本:Token Mreging: Your Vit But Faster 论文阅读笔记 一、Abstract二、引言三、相关工作3.1 有效的 Transformer3.2 Token

论文翻译 | pointnet: deep learning on point sets for 3d classification and segmentation_pointnet's contribution to semantic segmentation-爱代码爱编程

论文翻译 | PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation 前言:最近在看点云方面的论文,点云的文章都是看了没多久

pointnet: deep learning on point sets for 3d classification and segmentation 论文和代码详解-爱代码爱编程

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation 论文和代码详解 PaperAbstract1. Intr

【论文精读 | 细节分析 | 代码实现】pointnet: deep learning on point sets for 3d classification and segmentation_深度信息投影到二维平面-爱代码爱编程

文章目录 声明引文1.点云数据格式2. 点云的特点2.1.1 点云的置换不变性2.1.2 点云的相互关系2.1.3 点云的旋转不变性 3. 传统处理方式 Abstract点云数据的特性补充

论文阅读 pointnet: deep learning on point sets for 3d classification and segmentation_scene semantic parsing-爱代码爱编程

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation Abstract 点云是一种重要的几何数据类型结构,大多数研究者将