用于三维点云的球形内核八叉树引导卷积神经网络

作者:Huan Lei, Naveed Akhtar, Ajmal Mian

摘要

我们提出了一种八叉树引导神经网络架构和球形卷积核,用于从任意3D点云进行机器学习。网络架构利用不规则点云的稀疏性质,并通过空间划分分层地粗化数据表示。同时,所提出的球形核系统地量化点邻域以识别数据中的局部几何结构,同时保持平移不变性和不对称性。我们在网络神经元的帮助下指定球形核,而网络神经元又与空间位置相关联。我们利用这种关联来避免网络训练期间的动态内核生成,从而实现高分辨率点云的高效学习。所提出的技术的有效性建立在3D对象分类和分割的基准任务上,在ShapeNet和RueMonge2014数据集上实现了最新的先进技术。

简介

众所周知,卷积神经网络(CNN)[17]从数据中学习高效特征。然而,标准CNN仅适用于通过常规网格定义的数据,例如, 像素阵列。这限制了它们处理本质上不规则的3D点云的能力。点云处理最近获得了重要的研究兴趣,并且这种数据模态的大型存储库已经开始出现[1,4,12,39,40]。最近的文献也发现了很多尝试通过自适应来利用标准卷积网络对点云的表现能力[23,39]。然而,这些尝试经常导致过大的内存占用,限制了允许的输入数据分辨率[29,33]。更有吸引力的选择是将卷积运算的能力与不规则数据的图形表示相结合。得到的图形卷积网络(GCN)在频谱域[3,7,15]或空间域[33]中提供卷积。

图1. 所提出的八叉树引导的CNN,即\psi -CNN使用八叉树分割信息直接处理原始点云。通过应用球形卷积核,在每个网络层(所描绘的三个层)上对表示进行分层粗化。球形核系统地将点x_i 周围的空间分成多个体积箱。 对于第j 个相邻点x_j,内核首先确定其相关的bin并使用为该bin定义的权重矩阵W来计算激活值。所提出的球形核保留了三维点云域中标准二维卷积核的平移不变性和不对称性。

在这项工作中,我们引入了球形卷积核的概念,系统地将球形3D区域划分为多个体积区域,参见图1.内核的每个区域指定一个可学习参数的矩阵,这些参数对落入该区域内的点进行加权以进行卷积。我们在神经网络(\psi-CNN)的层之间应用这些内核,我们建议通过利用3D空间的八叉树分区[24]来构建这些内核。稀疏引导的八叉树结构确定了在网络的每个层中执行卷积的位置。网络体系结构本身由八叉树的层次结构引导,具有与树深度相同数量的隐藏层。通过利用空间划分,网络避免了K-NN /范围搜索并且有效地消耗了高分辨率点云。它还通过将它们与其神经元相关联来避免动态生成所提出的内核。同时,内核能够在数据中的类似本地结构之间共享权重。我们理论上确定球形核不对称地应用于我们网络中的点,就像标准CNN中的核不对称地应用于图像像素一样。这确保了点云域中所提出的网络的紧凑表示学习。 我们证明了我们的方法在三维物体分类、零件分割和大规模语义分割方面的有效性。这项工作的主要贡献概述如下:

  • 提出了一种新的翻译不变和非对称卷积核概念,并分析了不规则点云的逐点特征学习。
  • 得到的卷积内核利用八叉树引导神经网络,与之前的八叉树点云[?]的体素化应用相反,分层地粗化数据并使用空间分区构建点邻域以避免耗时的K-NN/范围搜索。
  • 通过使用ModelNets [39]进行3D对象分类,使用ShapeNet [40]进行零件分割,使用RueMonge2014 [30]进行语义分割,在最后两个数据集上实现新的最新技术,确定了所提出技术的有效性。

相关工作

PointNet [27]是利用神经网络来表示点云的首批实例之一。它直接使用x,y,z坐标作为输入特征。网络使用共享MLP学习逐点特征,并使用最大池化提取全局特征。PointNet的一个主要限制是它在逐点特征学习中没有探索几何上下文。稍后由PointNet ++ [28]解决这个问题,将最大池化分层应用到局部区域。增强功能使用K-NN搜索以及范围搜索来构建本地区域。 然而,PointNets [27,28]使用最大池化将上下文信息聚合在一起,并且在网络中没有探索卷积模块。关于使用树结构深度学习处理点云,Kd网络[16]是开创性的突出贡献之一。Kd-network还使用点坐标作为输入,并通过在平衡树中连接其子节点的特征来计算父节点的特征。但是,它的性能在很大程度上取决于树结构的随机化。这与我们使用点之间的确定性几何关系的方法形成鲜明对比。另一种技术,SO-Net [18]将不规则点云重新组织成m \times m 2D矩形地图,并使用PointNet架构来学习地图的节点特征。同样,KCNet [32]也建立在PointNet之上,并引入了一个点集模板来学习点云中局部点的几何相关性。PointCNN [19]通过使用可学习“X-变换”来规范地重排序局部点提取排列不变特征。所有这些方法都与我们直接接受点的空间坐标作为输入的工作有关。但是,它们对使用卷积网络处理三维点云没有贡献。推进研究方向的方法可分为两大类,如下所述。

图卷积网络

图卷积网络可以分为频谱网络[3,7,15]和空间网络[33]。频谱网络依赖于图拉普拉斯算子和邻接矩阵在频谱域中执行卷积,而空间网络在空间域中执行卷积。频谱网络的一个主要限制是它们要求图形结构是固定的,这使得它们应用于具有不同图形结构(例如点云)的数据具有挑战性。Yi等人[41]试图用频谱变换网络(SpecTN)解决这个问题,类似于空间域中的STN[14]。然而,从空间域到频谱域的信号变换导致计算复杂度变为O(n2) ,反之亦然 。 ECC [33]是用于空间域中图形卷积的点云分析的开创性工作之一。受动态滤波器网络[6]的启发,它适应MLP动态地在连接的顶点之间生成卷积滤波器。过滤器的动态生成带来了计算开销。此外,ECC中的邻域构造和图形粗化必须依赖于范围搜索,但这是无效的。我们直接从八叉树分区实现粗化和邻域构造,从而避免了代价高昂的范围搜索。此外,我们的球形卷积核有效地探索了每个点的几何环境,而无需动态滤波器生成。

三维卷积神经网络

3D-CNN应用于3D数据的体积表示。在此方向的早期尝试中,只能处理低输入分辨率,例如,30 * 30 * 30 [39],32 * 32 * 32 [23]。这个问题也影响到了后来的研究成果[13,31,42,43]。低输入分辨率的限制是存储器和与体积输入数据相关的计算要求的立方级增长的自然结果。后来的方法[8,20]主要是为了解决这些问题。最近,Riegler等人[29]提出OctNet,它表示具有浅网格八叉树(深度= 3)的混合的点云。与其密集型同行相比,OctNet在很大程度上降低了计算和内存成本,适用于高达256 * 256 * 256的高分辨率输入。OctNet也使用八叉树,而OctNet和我们的方法之间存在重大差异。首先,由于其3D-CNN内核,OctNet必须将点云处理为常规3D卷。由于提出的是球形核,没有这样的约束适用于我们的技术。其次,我们能够用单个深八叉树学习点云表示,而不是使用浅树的混合。

球卷积网络

我们的网络主要来自球形卷积核。因此,在深入研究网络细节之前,必须先了解所提出的内核。本节介绍了我们用于3D点云处理的卷积内核。

对于图像,手工制作的特征传统上是通过更原始的成分(即补丁)来计算的。实际上,相同的原理超越了使用标准CNN的自动特征提取,所述CNN使用明确定义的矩形区域的激活来计算特征图。 尽管矩形区域是处理2D性质数据的常见选择,但球形区域更适合于处理非结构化3D数据,例如点云。球形区域固有地适合于计算这种数据的几何上有意义的特征[9,35,34]。受这种自然亲缘关系的启发,我们引入了球形卷积核1的概念,它使用3D球体作为基本几何形状来执行卷积。

注意:球状CNN [5]中的术语“球状的”是用于球面(即360度图像)而不是环境3D空间。我们的球形核的概念与[5]有很大不同,它在不同的背景下使用。

给定一组任意的点云P = \{x_i \in \mathbb{R}^3\}^{m}_{i=1},其中 m 是点的数量;我们在球半径\rho = \mathbb{R}^{+} 的辅助下定义卷积核。对于一个目标点x_i,我们将这个点的邻居 \mathcal{N}(x_i)与该点组成点集,x_i就是点集的中心,例如,\mathcal{N}(x_i) = \{x : d(x, x_i) \leq \rho \},其中此篇文章中的d(. , .) 是距离度量-\mathit{l}_2距离。我们采用方位角(\theta)和仰角维度(\phi )整齐等分方式把球分为 n \times p \times q 个“箱”(参见图1)。我们也允许分区沿着放射状方向分为不规则的“箱”,因为对于大半径立方体积增长可能不是我们想要的。 我们对球形区域的量化主要受3DSC的启发[9]。我们还定义了一个与球体原点相对应的附加“箱”,以允许点的自动卷积。对于每个“箱”,我们定义一个权重矩阵W_{\mathcal{K} \in \{0, 1, ..., n \times p \times q \}} \in \mathbb{R}^{s \times t} 为可学习参数,其中 s-t 是“输出-输入”通道,以及W_0与自卷积相关。合在一起,n \times p \times q + 1 权重矩阵指定一个单一的球形卷积核。

要对一个目标点x_i计算激活值,我们必须要为该点的每个相邻点x_j \in \mathcal{N}(x_i) 找出相关的核权重卷积。将x_iW_0相关联以进行自卷积是很简单的。对于非平凡的情况,我们首先用球面坐标表示相邻点,使用x_i作为原点参考。也即,对于每个x_j,我们计算\mathcal{T}(\Delta_{ji}) \rightarrow \psi_{ji},其中\mathcal{T}(.)定义了从笛卡尔坐标系到球面坐标系的变换,以及\Delta_{ji} = x_j - x_i。假设量化球体“箱”以方位角、仰角和放射状半径相应地表征为k_{\theta}k_{\phi}k_r,则与球状核“箱”相关的权重矩阵可以表示为\mathcal{K} = k_{\theta} + (k_{\phi} - 1) \times n + (k_r - 1) \times n \times p,其中k_{\theta} \in \{1, ... , n\} k_{\phi} \in \{1, ... , p\}k_r \in \{1, ... q\}。使用此种表示法,我们计算出每个\psi_{ji} ;因此,x_{ji} 为其相关权重矩阵。在第l 个网络层,对第i个点的激活值可由以下公式计算得到:

z^{l}_{i} = \frac{1}{ |\mathcal{N}(x_i)|} \sum_{j=1}^{ |\mathcal{N}(x_i)| }W^{l}_{k}a^{l-1}_{j}+b^l

a^{l}_{i} = f(z^l_i)

其中a^{l-1}_{j} 是层l-1相邻点的激活值,W^{l}_{k} 是权重矩阵,b^l 是偏置向量,以及我们实验的f(.) 是非线性激活函数ReLU。

为了详细说明所提出的球形卷积核的特征,让我们分别用\theta\phir分别表示内核的箱的边缘:

\Theta = [\Theta_1, ... , \Theta_{n+1}], \Theta_k < \Theta_{k+1}, \Theta_k \in [-\pi, \pi]

\Phi = [\Phi_1, ... , \Phi_{n+1}], \Phi_k < \Phi_{k+1}, \Phi_k \in [-\frac{\pi}{2},\frac{\pi}{2}]

\mathcal{R} = [\mathcal{R}_1, ..., \mathcal{R}_{n+1}], \mathcal{R}_k < \mathcal{R}_{k+1}, \mathcal{R}_k \in (0, \rho]

由于沿方位角和仰角的均匀切分的约束,我们可以写为\Theta_{k+1} - \Theta_k = \frac{2\pi}{n}以及\Phi_{k+1} - \Phi_k = \frac{\pi}{p}

引理 2.1:若 \Theta_k \cdot \Theta_{k+1} \geq 0\Phi_k \cdot \Phi_{k+1}n > 2,则对于球体核内任意两个点x_z \neq x_b,权重矩阵W_k, \forall k > 0 都是不对称的。

证明:\Delta_{ab} = w_a - x_b = [\delta_x, \delta_y, \delta_z]^T,然后\Delta_{ba} = [-\delta_x, -\delta_y, -\delta_z]^T。在笛卡尔坐标系到球坐标系变换下,我们有\mathcal{T}(\Delta_{ab}) = \Psi_{ab} = [\theta_{ab}, \phi_{ab}, r]^T,以及\mathcal{T}(\Delta_{ba}) = \mathcal{T}_{ba} = [\theta_{ba}, \phi_{ba}, r]^T。我们断定\psi_{ab}\psi_{ba}会落在由k \leftarrow (k_\theta, k_\phi, k_r) 索引的同一个箱内,例如,W_k对称适用于点x_ax_b。在这种情况下,在逆变换\mathcal{T}^{-1},我们有\delta_z = r \sin \theta_{ab}以及(-\delta_z) = r \sin \theta_{ba}。条件\phi_{k_{\phi}} \cdot \phi_{k_{\phi} + 1} \geq 0 牵涉到 -\delta^2_z = \delta_z \cdot (-\delta) = (r \sin \phi_{ab}) \cdot (r \sin \phi_{ba}) = r^2(\sin\phi_{ab} \sin\phi_{ba}) \geq 0 \longrightarrow \delta_z = 0。类似地,\Theta_{k_{\theta}} \cdot \Theta_{k_{\theta} + 1} \geq 0 \longrightarrow \delta_y = 0。因此,x_a \neq x_b ,对于\delta_x \neq 0,我们有\cos \theta_{ab} = -\cos \theta_{ba} \longrightarrow | \theta_{ab} - \theta_{ba}| = \pi。然而,若\theta_{ab}, \theta_{ba}落入了相同的“箱”,我们有|\theta_{ab} - \theta_{ba}| = \frac{2\pi}{n} < \pi,其中涉及到 \delta_x = 0。因此,断言不能保持,并且W不能对称地应用于任何两个点,除非两个点相同。

球形核的不对称性是重要的,因为它限制了点对之间相同权重的共享,这有助于学习具有更精细几何细节的更有效的特征。引理2.1还提供了将卷积内核划分为二进制数的指导原则,以便始终保持不对称性。请注意,内核权重与像素的不对称应用在标准CNN内核中很自然。但是,建议的内核能够确保点云域中的相同属性。

与三维卷积神经网络的关系:在这里,我们简要地将所提出的球形核概念与利用CNN用于3D数据的现有技术相关联。在这个方向上的开拓性工作将原始数据光栅化为均匀的体素网格,然后使用3D-CNN从得到的体积表示中提取特征[23,39]。在3D-CNN中,普遍使用大小为3 \times 3 \times 3 = 27的卷积核,其将1个单元/体素中的空间分割为半径r = 0(自卷积);半径r = 1的6个单元格;半径r = \sqrt{2}的12个单元;半径为$laetx r = \sqrt{3}$ 的8个单元格。对于相同的区域,可以使用半径r= \sqrt{3}指定类似的球形卷积核,使用以下边缘进行分箱:

\Theta = [-\pi, -\frac{\pi}{2}, 0, \frac{\pi}{2}, \pi]

\Phi = [-\frac{\pi}{2}, -\frac{\pi}{4}, 0, \frac{\pi}{4}, \frac{\pi}{2}]

\mathcal{R} = [\epsilon, 1, \sqrt{2}, \rho], \epsilon \rightarrow 0^+

这种划分导致内核大小(即,总箱数)为4 \times 4 \times 3 + 1 = 49,这是引理2.1允许的最粗糙的多尺度量化。

请注意,如果我们从球心的中心径向移动到外围,我们在\mathcal{R}定义的每个边之后遇到相同数量的箱(在这种情况下为16),其中细粒度箱位于可以编码详细的原点附近。这与3D内核形成鲜明对比,3D内核必须保持所有单元的大小不变,并依赖于增加的数据输入分辨率来捕获更精细的细节,而这通常会引起内存问题 球形核的多尺度粒度使其成为原始点云的自然选择。

神经网络

大多数利用神经网络处理点云的现有尝试[18,19,28,32,33]依赖于K-NN或范围搜索来定义点的局部邻域,随后用于执行诸如卷积或池化的操作。但是,为了处理大点云,这些搜索策略在计算代价上变得过高。对于非结构化数据,定义点邻域的有效机制是树结构化,例如, Kdtree [2]。树结构的分层特性还为可用于处理点云的神经网络架构提供指导。更重要的是,树状结构数据还具有神经网络的排列和平移不变性的非常期望的属性。

核心架构

我们利用点云的八叉树结构[24]并基于生成的树设计神经网络。我们选择使用八叉树的依据来自于其作为基础数据结构的神经网络的适应性[29],以及与例如Kd树相比在点邻域中考虑更多数据的能力。我们使用所提出的图2中的网络构建策略来说明八叉树下的3D空间划分,得到的树以及神经网络的形成以用于玩具示例。对于输入点云P,我们构造深度为L的八叉树(图中L = 3)。在构造中,节点的分割被固定为使用一个点的最大容量,除了最后一层叶子节点。父节点中的点计算为其子节点中的点的预期值。最后一层节点中多个点的分配直接来自允许的最精细的空间划分。对于未密集填充的3D空间中的子体积,我们的分割策略可以在树达到其最大深度之前产生叶节点。在这种情况下,为了便于将树映射到神经网络,我们将叶节点复制到树的最大深度。我们在实现网络时安全地忽略空节点,从而带来计算和内存优势。

图2. 使用小尺寸(toy,不应译作“玩具的”)为示例的八叉树引导网络架构的图示:3D空间中的点云在深度为3的八叉树下划分。相应的树表示基于空间分区将点分配给最大深度的节点,并计算作为其子节点的预期位置的父节点的位置。 重复浅枝上的叶节点以匹配最大深度。相应的神经网络具有与树深度相同数量的隐藏层,并且神经网络学习用于特征提取的球形卷积核。

基于分层树结构,我们的神经网络也有L个隐藏层。请注意,在图2中,我们使用l = 1作为对应于树的Depth = 3的第一个隐藏层。 我们将在文本中使用相同的约定。 对于树中的每个非空节点,在我们的神经网络中存在相应的神经元。 回想一下,球形卷积核被指定为具有执行卷积的邻域的目标点。 因此,为了促进卷积,我们将单个3D点与每个神经元相关联,除了树的最大深度处的叶节点。 对于叶节点,关联点是分配给该节点的数据点的平均值。 神经元使用其相关的点/位置来选择适当的球形核,然后应用非线性激活(图2中未示出)。 在我们的网络中,最后一层之前的所有卷积层之后都是批量标准化和ReLU激活。

图3. 使用图2的核心网络进行分类和分割。对于分类,根节点(顶层)处的特征与其余层处的最大池(虚线)特征连接,随后是全连接层。对于分割,点的表示使用沿着到根节点的路径的所有祖先的层级特征,例如, 点’1’的红色路径和点’m’的蓝色路径。 使用连接的原始点特征(xyz/xyz-rgb),MLP特征和所有提取的层级特征来执行逐点分类(分割)。 为了说明,示出了简单的配置MLP(32)-八叉树(64-128-256)。

分类与分割

分类和分割网络基本上是图2中所示的相同核心架构的变体。然而,我们另外在八叉树结构之前插入MLP层以获得更具表现力的逐点特征。这个概念的灵感来自Kd-Net [16]。图3显示了分类和分段的完整体系结构。为了充分利用在不同八叉树级别学习的分层特征,我们使用来自所有八叉树层的特征。对于分类,我们最大限度地利用(max pool)中间层(包括原始特征)的特征,并将它们与根节点处的特征连接起来,以形成完整点云的全局表示。对于分割,我们需要逐点特征。 每个点的特征由原始特征、MLP特征和分层特征相关联,而不需要任何池化。使用三个完全连接的层执行最终的分类或分割。

实验

我们在干净的CAD模型和带有噪声的点云上进行实验,以评估我们的方法在三维物体分类、零件分割和语义分割任务中的性能。在整个实验过程中,我们将卷积核的大小固定为 8 \times 2 \times 3 + 1,其中沿着坐标轴的方向均匀分割。我们使用三个完全连接的层(512-256-C),然后使用softmax作为分类和分割任务的分类器。这里,C表示类/部件的数量。我们的网络培训使用具有12 GB内存的Titan Xp GPU进行。我们使用带有动量的随机梯度下降法来训练网络。在我们的所有实验中,批次大小固定为16。使用交叉验证对这些超参数进行了经验优化。我们仅使用点云提供的点的(x, y, z)坐标来训练我们的网络,并且在提供颜色信息时使用(r, g, b)值。文献中现有的几种方法也利用法线,并将它们用作输入特征。但是,法线不会被3D传感器直接感知,必须使用点坐标计算。这也带来了额外的计算负担。因此,我们避免使用法线作为输入特征。在我们的实验中,我们遵循利用数据增强的标准做法。为此,我们使用原始点云的随机子采样,执行随机方位角旋转(最多\frac{\pi}{6}弧度)并且还应用噪声平移(标准差 = 0.02)以增加训练示例的数量。这些操作在网络的每个训练周期中伴随执行。

分类

我们使用基准数据集ModelNet10和Model-Net40 [39]来评估我们的分类任务技术。 这些数据集是使用干净的CAD模型创建的。ModelNet10包含10类对象网格,样本分为3,991个训练样例和908个测试实例。ModelNet40包含40个类别的对象网格,其中训练/测试样例分割共9,843/2,468个。

与现有工作(例如[27,28,32,33])相比,在我们的网络中执行的卷积允许所提出的方法消耗较大的输入点云规模。因此,我们使用一万个输入点训练我们的网络。对于分类任务,我们采用了具有6级八叉树的网络,而特征通道的数量保持为MLP(32) – 八叉树(64-64-64-128-128-128)。该网络包括两个组件,基于八叉树的架构,用于特征提取和分类阶段。我们以端到端的方式训练整个网络。我们通过将3D点云标准化以适应范围在[-1, 1]^3且均值为零的立方体来标准化输入模型。

表1对我们的方法的对象分类性能进行了基准测试,该方法缩写为\psi-CNN。

选择希腊字母作为前缀以避免与其他OCNN和SCNN重复,例如, [21,26,37]。

我们的方法使用点的xyz坐标作为原始特征来实现这些结果。可以看出,-CNN始终在ModelNets上实现最佳性能。 我们注意到,像我们的方法一样,Kd-Net [16]和OctNet [29]也是基于树结构的网络。 但是,它们需要两倍于我们的方法所需的参数层数来实现报告的性能。 这是所提出的内核有效探索几何信息的直接结果。

零件分割

ShapeNet零件分割数据集[40]包含16个类别的16,881个CAD模型。每个类别中的模型都有两到五个标注零件,总共50个零件。点云是使用3D网格的均匀采样创建的。此数据集提供点的x, y, z坐标作为原始要素,并定义了14007/2874训练/测试分割。 我们使用6级八叉树作为分段网络,配置MLP(64)——八叉树(128-128-256-256-512-512)。分类器的输出类别号C由每个类别中的零件数量确定。我们使用[27]中提出的部分平均IoU(mIoU)来报告表2中的性能。与分类任务类似,我们还通过将输入点云归一化为[-1, 1]^3且均值为零的立方体空间来标准化ShapeNet的输入模型。

在表2中,我们将我们的结果与也采用不规则点云作为输入的流行方法进行比较。然而,为了实现它们的结果,这些方法中的一些除了 x, y, z 坐标之外还利用法线作为输入特征,例如,Point-Net、PointNet ++、SO-Net。可以看出,\psi-CNN不仅达到了86.8%的最高mIoU,而且在16个类别中的11个中也优于其他方法。据我们所知, \psi-CNN记录了该部分分割数据集的新的最优性能,比专业分割网络SSCN [11]和SGPN [38]高1%。

在图4中,我们显示了很少的代表性分割结果。对于高质量结果,通过\psi-CNN实现高mIoU,而对于其他情况则mIoU值较低。检查低质量的结果后,我们发现大多数这些情况都是由两种情况之一引起的。(1)令人困惑的真实标签(ground truth labelling):例如 Skateboard中的轴在大多数地面实况样本中被标记为单独的部分,但在少数其他样本中被标记为轮子的一部分。因此,网络会学习占主导地位的组成部分(segmentation)。椅子的腿也是如此。(2)没有明确边界的小部件:例如袋子的把手被认为是真实情况(ground truth)中的独立部分。从这些结果中,我们可以很容易地得出\psi-CNN在零件分割任务中的成功应用。

语义分割

我们还使用RueMonge2014数据集[30]测试了我们的真实世界数据语义分割模型。该数据集包含沿着一条带有逐点标记注释的街道的700米立面。分类包括窗户、墙壁、阳台、门、屋顶、天空和商店。点云具有颜色特征。为了训练我们的网络,我们将训练和测试数据分成1m^3块。我们将所有块的立面平面对齐到同一平面,并将重力轴调整为直立。我们只强制x和y维度具有零均值,而z轴不需要。采用这种处理策略以避免丢失高度信息。我们使用xyz + rgb作为输入原始特征来训练我们的网络。使用的网络配置是MLP(64)——八叉树(64-64-128-128-256-256)。表3在[10]的评估协议下将我们的方法的结果与该数据集的当前最新状态进行了比较。通过7个参数层,我们实现了比OctNet更好的性能,OctNet使用20个参数层来学习每个点的最终表示。这些结果证明了\psi-CNN在实际应用中的承诺。

讨论

对于几何上有意义的卷积,必须了解局部邻域的点。 一种相关的方法,ECC [33]利用范围搜索来达到这个目的。 另一个明显的选择是K-NN聚类。 但是,对于树结构,例如,八叉树; 点邻域信息已经很容易获得,这增加了-CNN的计算效率。 在图5中,我们报告了在不同选择下计算邻域的时序,并将它们与八叉树构造进行比较。 可以看出,对于更大数量的输入点,与K-NN和范围搜索相比,八叉树结构更有效。 此外,对于大输入大小,其效率也优于Kd树,因为Kd树中的二进制分割迫使它比八叉树更深。

在ModelNets中随机选择的一千个样本上运行我们的分类网络,我们计算了大小为一万点的点云的网络测试时间,以及表4中的报告时间。样本的测试时间包括构建八叉树和执行前馈传递(forward pass,此处翻译存疑)所需的时间。我们还在表中显示正常计算的时间以供参考。我们的方法不计算法线来实现上一节中报告的结果。

高质量分割:

真实情况论文结果
灯
91.4%
91.4%
包
98.1%
98.1%
滑板
滑板
92.2%
92.2%
椅子
椅子
96.0%
96.0%

低质量分割:

真实情况论文结果
灯
46.8%
35.5%
包
46.8%
46.8%
滑板
滑板
55.8%
55.8%
椅子
椅子
41.6%
41.6%

图4. \psi-CNN的高质量和低质量分割结果的代表性示例。在每种情况下也给出了计算的mIoU。低质量的分割结果通常来自:(1)混淆真实情况标签,例如:在大多数真实情况标签中,滑板的轴被认为是单独的部分,(2)没有明确边界的小物体部分,例如: 袋子把手。颜色编码属于类别(在屏幕上查看最佳)。

图5. 八叉树结构与K-NN、范围搜索和Kd树的邻域计算比较。

为了正确看待这些时序,PointNet++ [28]在同一台机器上需要大约115ms的输入正向传输和1024点。 在图6中,我们还通过我们在八叉树结构下的方法展示了点云粗化的代表性示例。 我们的网络通过在每个级别应用球形卷积核逐渐稀疏点云。

l=1l=2l=3l=4l=5

图6. 用我们的技术在八叉树构造下的点云粗化实例。l是八叉树级别。

总结

我们介绍了用于点云处理的球形卷积核的概念,并证明了它在由八叉树结构引导的神经网络中的实用性。网络在其神经元附近连续执行卷积,其位置由下面的八叉树的节点控制。为了执行卷积,我们的球形内核将其占用的空间划分为多个箱(bin),并将权重矩阵与每个箱相关联。通过网络训练学习这些矩阵。我们已经证明,由此产生的网络可以有效地处理大型3D点云,从而有效地在合成和真实数据的3D分类和分割任务上实现优异的性能。

引用

  1. I. Armeni, O. Sener, A. R. Zamir, H. Jiang, I. Brilakis, M. Fischer, and S. Savarese. 3D semantic parsing of large-scale indoor spaces. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1534–1543, 2016.
  2. J. L. Bentley. Multidimensional binary search trees used for associative searching. Communications of the ACM, 18(9):509–517, 1975.
  3. J. Bruna, W. Zaremba, A. Szlam, and Y. LeCun. Spectral networks and locally connected networks on graphs. In International Conference on Learning Representations, 2014.
  4. A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su, et al. ShapeNet: An information-rich 3D model repository. arXiv preprint arXiv:1512.03012, 2015.
  5. T. S. Cohen, M. Geiger, J. K¨ohler, and M. Welling. Spherical cnns. In International Conference on Learning Representations, 2018.
  6. B. De Brabandere, X. Jia, T. Tuytelaars, and L. Van Gool. Dynamic filter networks. In Advances in Neural Information Processing Systems, 2016.
  7. M. Defferrard, X. Bresson, and P. Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in Neural Information Processing Systems, pages 3844–3852, 2016.
  8. M. Engelcke, D. Rao, D. Zeng Wang, C. Hay Tong, and I. Posner. Vote3Deep: Fast object detection in 3D point clouds using efficient convolutional neural networks. In IEEE International Conference on Robotics and Automation, June 2017.
  9. A. Frome, D. Huber, R. Kolluri, T. B¨ulow, and J. Malik. Recognizing objects in range data using regional point descriptors. European Conference on Computer Vision, pages 224–237, 2004.
  10. R. Gadde, V. Jampani, R. Marlet, and P. V. Gehler. Efficient 2D and 3D facade segmentation using autocontext. IEEE transactions on Pattern Analysis and Machine Intelligence, 40(5):1273–1280, 2018.
  11. B. Graham, M. Engelcke, and L. van der Maaten. 3D semantic segmentation with submanifold sparse convolutional networks. Proceedings of the IEEE Computer Vision and Pattern Recognition, pages 18–22, 2018.
  12. T. Hackel, N. Savinov, L. Ladicky, J. D. Wegner, K. Schindler, and M. Pollefeys. Semantic3D.net: A new large-scale point cloud classification benchmark. In ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, pages 91–98, 2017.
  13. J. Huang and S. You. Point cloud labeling using 3D convolutional neural network. In ICPR, pages 2670– 2675, 2016.
  14. M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In Advances in Neural Information Processing Systems, pages 2017–2025, 2015.
  15. T. N. Kipf and M. Welling. Semi-supervised classification with graph convolutional networks. In International Conference on Learning Representations, 2017.
  16. R. Klokov and V. Lempitsky. Escape from cells: Deep kd-networks for the recognition of 3d point cloud models. In Proceedings of the IEEE International Conference on Computer Vision, pages 863– 872. IEEE, 2017.
  17. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.
  18. J. Li, B. M. Chen, and G. H. Lee. So-net: Selforganizing network for point cloud analysis. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9397–9406, 2018.
  19. Y. Li, R. Bu, M. Sun, and B. Chen. Pointcnn. Advances in Neural Information Processing Systems, 2018.
  20. Y. Li, S. Pirk, H. Su, C. R. Qi, and L. J. Guibas. FPNN: Field probing neural networks for 3D data. In Advances in Neural Information Processing Systems, pages 307–315, 2016.
  21. B. Liu, M.Wang, H. Foroosh, M. Tappen, and M. Pensky. Sparse convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 806–814, 2015.
  22. A. Martinovic, J. Knopp, H. Riemenschneider, and L. Van Gool. 3D all the way: Semantic segmentation of urban scenes from start to end in 3D. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4456–4465, 2015.
  23. D. Maturana and S. Scherer. VoxNet: A 3D convolutional neural network for real-time object recognition. In IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 922–928. IEEE, 2015.
  24. D. Meagher. Geometric modeling using octree encoding. Computer graphics and image processing, 19(2):129–147, 1982.
  25. V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, pages 807–814, 2010.
  26. A. Parashar, M. Rhu, A. Mukkara, A. Puglielli, R. Venkatesan, B. Khailany, J. Emer, S. W. Keckler, and W. J. Dally. SCNN: An accelerator for compressed-sparse convolutional neural networks. In Proceedings of the 44th Annual International Symposium on Computer Architecture, pages 27–40. ACM, 2017.
  27. C. R. Qi, H. Su, K. Mo, and L. J. Guibas. PointNet: Deep learning on point sets for 3D classification and segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 652–660, 2017.
  28. C. R. Qi, L. Yi, H. Su, and L. J. Guibas. PointNet++: Deep hierarchical feature learning on point sets in a metric space. Advances in Neural Information Processing Systems, 2017.
  29. G. Riegler, A. Osman Ulusoy, and A. Geiger. Oct- Net: Learning deep 3d representations at high resolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3577– 3586, 2017.
  30. H. Riemenschneider, A. B´odis-Szomor´u, J. Weissenberg, and L. Van Gool. Learning where to classify in multi-view semantic segmentation. In European Conference on Computer Vision, pages 516–532, 2014.
  31. N. Sedaghat, M. Zolfaghari, and T. Brox. Orientationboosted voxel nets for 3D object recognition. In British Machine Vision Conference, 2017.
  32. Y. Shen, C. Feng, Y. Yang, and D. Tian. Mining point cloud local structures by kernel correlation and graph pooling. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, volume 4, 2018.
  33. M. Simonovsky and N. Komodakis. Dynamic edgeconditioned filters in convolutional neural networks on graphs. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
  34. F. Tombari, S. Salti, and L. Di Stefano. Unique shape context for 3D data description. In Proceedings of the ACM workshop on 3D object retrieval, pages 57–62. ACM, 2010.
  35. F. Tombari, S. Salti, and L. Di Stefano. Unique signatures of histograms for local surface description. In European Conference on Computer Vision, pages 356–369, 2010.
  36. A. Vedaldi and K. Lenc. Matconvnet: Convolutional neural networks for matlab. In Proceedings of the 23rd ACM international conference on Multimedia, pages 689–692. ACM, 2015.
  37. P.-S.Wang, Y. Liu, Y.-X. Guo, C.-Y. Sun, and X. Tong. O-CNN: Octree-based convolutional neural networks for 3D shape analysis. ACM Transactions on Graphics, 36(4):72, 2017.
  38. W. Wang, R. Yu, Q. Huang, and U. Neumann. SGPN: Similarity group proposal network for 3D point cloud instance segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2569–2578, 2018.
  39. Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao. 3D ShapeNets: A deep representation for volumetric shapes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1912–1920, 2015.
  40. L. Yi, V. G. Kim, D. Ceylan, I. Shen, M. Yan, H. Su, A. Lu, Q. Huang, A. Sheffer, L. Guibas, et al. A scalable active framework for region annotation in 3D shape collections. ACM Transactions on Graphics, 35(6):210, 2016.
  41. L. Yi, H. Su, X. Guo, and L. J. Guibas. Syncspeccnn: Synchronized spectral cnn for 3d shape segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2282–2290, 2017.
  42. A. Zeng, S. Song, M. Nießner, M. Fisher, J. Xiao, and T. Funkhouser. 3DMatch: Learning local geometric descriptors from RGB-D reconstructions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 199–208, 2017.
  43. Y. Zhang, M. Bai, P. Kohli, S. Izadi, and J. Xiao. Deepcontext: Context-encoding neural pathways for 3D holistic scene understanding. In Proceedings of the IEEE International Conference on Computer Vision, pages 1192–1201, 2017.

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据