PoGO-Net：运用图神经网络进行姿势图优化（ICCV 2021）-外链论坛

j8typz 发表于 2024-8-31 12:07:41

PoGO-Net：运用图神经网络进行姿势图优化（ICCV 2021）

PoGO-Net: Pose Graph Optimization with Graph Neural Networks李欣怡 * Magic Leap，美国加利福尼亚州桑尼维尔xinli@magicleap.comHaibin Ling † 美国纽约州斯托尼布鲁克石溪大学hling@cs.stonybrook.edu
链接：https://www3.cs.stonybrook.edu/~hling/publication/PoGO-Net-21.pdf
作者：幸运的石头|源自：微X公众号「3D视觉工坊」
摘要
准确的相机位姿估计或全局相机重定位Structure-from-Motion (SfM) 和 SLAM 系统的核心组件。给定成对的相对的相机位姿，位姿图对其进行优化（PGO），这包含到求解一组优化的全局一致的相机的绝对位姿。在这项工作中，咱们提出了一种由图神经网络 (GNN) 驱动的新型 PGO 方法，即 PoGO-Net，利用multiple rotation averaging (MRA) 进行相机的绝对位姿回归。详细来讲，PoGO-Net 将有噪声的视图做为输入，其中节点和边被设计为对几何约束和局部图一致性进行编码。另外，咱们经过利用隐式边缘丢弃方法来处理反常边缘去除问题，其中噪声或损坏的边缘经过参数化网络有效地过滤掉。另外，咱们引入了嵌入 MRA 公式的联合损失函数，使得鲁棒推理即使在大规模场景中亦能够实现实时性能。咱们提出的网络在公共基准上进行了端到端的训练，在广泛的实验中优于最先进的办法，这些实验证明了咱们提出的网络的效率和鲁棒性
1. 引言
视觉定位或相机姿态估计是许多计算机视觉和设备人任务的核心，其应用包含设备人导航、自动驾驶和加强现实。相机姿态估计是经过图像检索借助序列信息自动确定方向和位置的过程。做为标准相机位姿估计办法中的关键组件，位姿图优化（PGO）包含成对相机相对位姿的迭代估计和噪声全局视图的渐进式优化。在大都数传统的运动结构 (SfM) 和 SLAM 系统中，PGO 是经过利用特征帧对应来数值求解高维非凸逼近问题，一般会产生高计算成本。尽管处理 SfM 系统后端优化的科研激增，但仍有许多挑战存在。首要，规范求解器在输入体积方面拥有三次阶的繁杂性，并逐步减慢，从而丧失了实时需求。其次，成对相对相机姿态的测绘一般是存在噪声的，会在视图中产生损坏和错误的边缘，从而损害传统办法和基于学习的办法的性能。第三，运用深度学习网络对结构和运动进行直接回归容易显现过度拟合，从而阻碍了实质应用中的鲁棒性和通用性。受近期成功的图神经网络 (GNN) 的启发，咱们这里提出了一种新的基于 GNN 的 PGO 方法，以处理以上所有问题，即 PoGO-Net。详细来讲，咱们运用视图边缘上的成对的几何约束对边缘信息进行编码，并与局部一致性信息聚合。相机的绝对方向被编码为节点特征，按照其连接的边缘和相邻节点进行更新。当咱们将输入哪些被视为拥有错误和冗余边的损坏图时，咱们经过利用拓扑参数化网络层进行“边缘丢弃”来处理图去噪问题，即移除反常边缘按照局部图的一致性，得到输入视图的更稀疏但更精确的子图。咱们重新定义信息聚合并设计基于多次旋转平均（MRA）算法的损失函数，经过有效的信息传递方法，咱们提出的网络即使在大规模数据集下亦能够实时处理.另外，咱们的网络拥有端到端的可微结构，其中去噪层和 GNN 层的参数在训练时期联合优化。
咱们的贡献能够总结如下：• 咱们提出了一种新的 PGO 公式，以 GNN 为燃料，经过利用 MRA 方法进行相机的绝对位姿回归。• 咱们设计去噪层来处理PGO 中的反常边缘去除问题。咱们提出的去噪层与 GNN 层一块迭代执行，隐含地利用了“边缘丢弃”方法。• 咱们端到端训练 PoGO-Net，该网络能够容易地与传统和基于学习的 SfM 系统集成*。对公共基准的广泛实验证明了咱们提出的网络的准确性、效率和鲁棒性。
2. 关联工作传统的 PGO 办法。给定一个 3D 场景，最初经过应用鲁棒的办法 来估计成对的相机的相对位姿，以去除匹配的对应反常值的特征，从而拟合基本/本征矩阵，而后是视图重新细化，即 PGO 迭代。在传统 SfM 办法的标准 PGO 办法 中，处理高维非凸优化问题 重点包含采用迭代非线性数值求解器 经过联合优化来优化3D 场景点、相机方向和平移即bundle adjustment (BA) 来最小化重投影误差。做为 BA 中的一个子问题，旋转平均 (RA) 致力于在给定一组相对相机旋转的存在噪声的测绘值的状况下求解相机方向，并且能够归类为单旋转平均和多次旋转平均 (MRA) 。前者在给定几个估计的状况下供给了一次旋转的最佳解决方法，而后者能够被视为同步问题，其目的是在给定噪声边缘标签的状况下恢复图中的未知顶点标签。近年来，咱们见证了对 MRA 的科研兴趣激增。尽管旋转群空间拥有非凸性，然则MRA 仍然是一个计算上难以处理的问题，但与基于点帧对应的传统 BA 办法相比，它经过准许更低的维度和繁杂性表示出优良 ，实现更快、更轻的求解器。然而，MRA 的重点挑战与反常边缘关联，即，倘若不认识视图中边缘上的噪声分布，MRA 的准确性和鲁棒性会受到极重损害。近期有海量针对鲁棒有效的 MRA 办法的工作，这些办法能够进一步分为显式反常值检测/去除方法 和隐式降噪方法 。
基于学习的 SfM 办法。直到近期，科研兴趣才集中在将深度神经网络整合到 SfM 办法和相机位姿估计任务中。做为最早采用神经网络进行相机位姿回归的工作之一，中提出的深度卷积神经网络位姿回归器是按照嵌入相机的绝对位姿预测误差的损失函数进行训练的。虽然率先将神经网络的优点融合到姿态回归框架中，但它无将视图的帧内约束或连通性纳入优化，因此呢在准确性上几乎无超过在中所改进的那样的传统的方法。其他工作利用给定序列图像之间的代数或几何关系，并训练网络预测以定位图像，其中 经过配备双向的拥有 CNN-RNN 模型的方向 LSTM 来利用序列图像的时间一致性，使得时间规律性能够在回归中供给更加多的姿势信息。中的办法经过利用来自 IMU 和 GPS 的额外测绘来训练具有帧之间成对几何约束的 DNN 模型。采用神经网络亦极重地有利于平行科研，包含 3D 配准和点云对齐。近期的工作是第1个在完整的相机的绝对位姿回归框架中利用 GNN 的科研，其中作者运用与 CNN 提取的图像特征融合的节点对视图图进行建模。另一种近期的办法 提出了一个基于 GNN 的网络来处理 MRA，其中网络由两个子网络构成，分别处理反常值去除和姿势细化。尽管这两种基于 GNN 的办法都取得了令人满意的性能，但存在局限性并且能够进行改进。例如，节点特征和边缘值的关联性在中被视为纯二元，丢弃帧之间的几何约束。另外，该图被初始化为完全连接的，这可能会引入海量冗余和错误的边。在咱们的工作中，咱们运用视图边缘上的成对的几何约束对边缘信息进行编码，并与局部一致性信息聚合。尽管受到 NeuRoRA 的启发，然则咱们所提出的网络经过知道制定边缘信息来实现“边缘丢弃”方法，而前者仅在节点上进行信息聚合。另外，经过准许节点-边联合信息聚合能更有效地保存图信息，这般只需要一个损失，从而促进端到端训练，而额外的视图清理损失被包含在网络NeuRoRA 的工作设计中。尤其是，咱们经过引入去噪层来有效地去除反常值，从而处理了咱们提出的网络的鲁棒性问题。
图神经网络。凭借其强大而敏捷的数据暗示，GNNs 在众多计算机视觉任务中表现出色。尽管取得了成功，但因为 GNN 对噪声图的脆弱性，直接采用 GNN 来处理 PGO 并不适用。在咱们的工作中，咱们经过采用参数化去噪层来减少反常边缘的消极影响。
3. 问题描述
3.1.预备知识和符号
给定拥有 n 个图像帧的 3D 场景，思虑存在帧 Ii和 Ij之间的相对旋转的测绘 ̃Rij∈ SO(3)。假设在 ̃Rij无噪声的理想状况下，Ii和 Ij的绝对旋转 Ri, Rj∈ SO(3) 满足 ̃Rij= RjR−1 i 。然而，在实践中，相对测绘值一般是有噪声的并且包括反常值，因此呢相机的绝对方向估计是寻求一组与相对测绘值全局一致的相机方向，这个过程叫作为多次旋转平均（MRA）。形式上，MRA 是一个变换同步问题，它包含最小化一个代价函数，该函数最小化相对旋转 ̃Rij和RjR−1 i的测绘值之间的差异。即求解以下目的函数
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/fc28100c18364037acf5d3cfdcf4deef~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=B9sj51eIVk9YgTKBY6Ml3WnRrFo%3D" style="width: 50%; margin-bottom: 20px;"></div>
其中 ρ(· ) 是鲁棒的代价函数，d(·,·) 是距离度量。咱们在整篇论文中采用四元数参数化和相应的度量。
3.2.位姿图优化
有了上面定义的 MRA 问题，此刻咱们准备制定 PGO 过程。让图 G = (V, E) 暗示初始视图，其中顶点集 V = {vi|i ≤ n} 暗示要估计的相机的绝对方向的集合，边缘集 E = {(i, j)|vi, vj∈ V} 描述了图像帧之间相对相机方向的成对测绘的可用性。在实践中，视图的边缘经常有噪声，这使咱们没法直接在 G 上进行 MRA。E有噪声的原由有两个：1）鉴于图像检索中存在不可减少的错误（例如特征匹配），针对基于深度学习的办法 和传统的几何约束办法 ，反常值成对的相对测绘值很难消除 2）因为多个摄像机能够共享类似的视图，因此呢视图图常常拥有冗余边缘，因此呢在方程式1中定义的MRA一般是“过度约束”。在咱们的工作中，咱们经过利用由参数化去噪层融合的“边缘丢弃”方法来处理视图图中的噪声，从而修复和消除噪声/冗余边缘，而后真正可操作地在G的正确子图上进行MRA
4. PoGO-Net 架构
在本节中，咱们将仔细介绍所提出的 PoGO-Net，如图 1 所示。详细而言，咱们首要在第 4.1 节中给出网络架构概述，而后经过在第 4.2 节中间商绍咱们的图结构和特征嵌入。而后，咱们在第 4.3 节中说明了咱们的信息聚合方法的新颖结构，其中节点信息和边缘信息都经过有效编码，以收集每一个节点周边的所有信息。4.4节描述了咱们提出的网络中的去噪层，其中去噪层被设计为与 GNN 层一块迭代执行，以便能够有效地隐式去除反常边缘。在 4.5 和 4.6 中，咱们强调了图更新规则和意见的损失函数。
4.1.架构概述
如图 1 所示，咱们的 PoGO-Net 将噪声视图做为输入并输出优化的位姿图。因为输入中的相机的绝对方向是未知的，咱们经过在拥有最高程度（即与大都数节点连接）的节点上播种生成树来初始化节点特征，并借助咱们去噪层主动去除反常边缘的帮忙在图上传播初始化。该网络拥有多层前馈架构，由去噪层和 GNN 层构成。在每次迭代中，去噪层在经过 GNN 层更新聚合信息之前对反常边缘执行“边缘丢弃”方法。PoGO-Net 是完全可微的，并且经过端到端训练，能够联合优化去噪层和 GNN 层。
4.2.特征嵌入
针对输入视图 G = (V, E)，暗示相对方向集的边集 E 包括位姿估计所需的大部分基本信息。设̃rij∈ SO(3), (i, j) ∈ E 暗示连接 vi和 vj的边的特征向量。因为节点表率未知的相机的绝对方向，让qi∈ SO(3)，vi∈ V 表率节点特征。{qi|vi∈ V} 能够看作是一组特征占位符，在训练过程中以生成树的方式交互初始化，更加多细节在 4.5节中给出。从 E 派生的指示每一个节点邻域的二进制矩阵的邻接矩阵 AG与常规 GNN 相比，咱们工作中的邻接矩阵由参数化变量形成。详细来讲，由 AG 构成的元素的值说明了相应的边缘暗示的测绘值是不是靠谱，即，小的值寓意着边缘容易显现噪声乃至反常值。AG 参数化的仔细信息在 §4.4 中。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8be209ba584343cb8404f9ecbf9065cf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=UhwTcS1b9FKOJr1UudXV1hsw6AU%3D" style="width: 50%; margin-bottom: 20px;"></div>
图1:PoGO-Net办法示意图。咱们提出的网络将噪声视图图做为输入，输出是优化的位姿图。该网络采用拥有信息传递方法的多层前馈架构，其中信息在每一个节点的连接边和相邻节点上聚合。去噪层旨在去除反常边缘，并与 GNN 层迭代执行。最好以彩色观看
4.3.信息聚合
咱们的网络采用多层前馈架构，利用信息传递方法 实现，即聚合信息在每一个节点的邻域内传播。因为节点和边经过网络层交互更新，咱们设计了一种新颖的联合信息聚合方法来有效地编码节点信息和边信息。仔细地，记为第 l 层节点 vi的邻域 Nl i = {vj|(i, j) ∈ El}，信息生成如下
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/965f4b2f3b0c41b3a556ebd7768b4825~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=RSHSvBVnIyEa6xwX6Q6p%2BLg1Izw%3D" style="width: 50%; margin-bottom: 20px;"></div>
其中暗示连接，πi暗示节点 vi的状态。针对 PGO，从与给定相机姿态共享视图的所有相邻相机收集信息是必不可少的，因此呢咱们将 vi的状态特征与其邻域中的所有连接边缘和节点特征组合在一块。值得重视的是，因为咱们提出的网络能够在训练时期过滤掉反常值/冗余边缘，E 在区别的层中变得更稀疏但更精确（仔细信息在第 4.4 节中给出）。节点状态信息的两个构成部分对应于相邻节点的所有连接边。
4.4.图去噪
因为 PoGO-Net 的输入经常存在反常值/冗余边，因此呢直接将 GNN 应用于 PGO 任务是不切实质的，因为沿边的信息聚合可能会传播和放大全部图上的噪声。在咱们提出的网络中，咱们经过利用“边缘丢弃”去噪层和 GNN 层来降低噪声，这般边缘和节点会按照 §4.3 中定义的相应信息传递进行交互更新。详细来讲，思虑网络第I层的邻接矩阵 Al G，在咱们的网络中，Al G 的元素暗示回归中相应边缘特征的权重 ̃rl ij。亦便是说，Al G = AG⊙ Zl，其中 Zl暗示二进制系数矩阵 {zl ij }，⊙暗示逐元素乘法运算。在之后，咱们将二进制元素 zl ij 从纯二进制放宽为边缘信息ml ̃rij 的确定性函数 g 的值，如方程式3，使得系数是连续的和非二进制的。详细来讲，令 εl是与ml ̃rij无关的均匀分布随机变量，则zl ij定义为
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/e3d0d871835c4fe3aa516c5cc7c5b170~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=0wIdAees59FRr19yGscoeTZFGX4%3D" style="width: 50%; margin-bottom: 20px;"></div>
其中
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/81712d3e9255496cba5b13bb2a1d9634~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=CrriNbdAqs1m15%2F7%2BSYHAilRKjU%3D" style="width: 50%; margin-bottom: 20px;"></div>
是由于 γl参数化的 MLP。当咱们鼓励网络为优化去除边时，咱们将 zl ij 的开放域 (0, 1) 扩展到包含 0。将 ul ij 暗示为从由边缘信息，即
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0cf5d4aaa9784a0283f752a082b9fa8c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=xMR%2BeekefwpsFhqRLRbfoYAn%2FZo%3D" style="width: 50%; margin-bottom: 20px;"></div>
其中 τ > 0 暗示温度参数和
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/eb3f95b79062419197ba8b52d02f197b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=cj4S5DiKh2xoIMgBp111XF4%2FgTc%3D" style="width: 50%; margin-bottom: 20px;"></div>
是 sigmoid 函数。既然咱们要ul ij∈ (a, b) 且 a < 0 且 b > 0，因此呢咱们将ul ij更新为
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/410569d659db49158a55ae2e1265b233~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=%2FxjD4DTaVHxFIpLbAGgGCbyeQa0%3D" style="width: 50%; margin-bottom: 20px;"></div>
。此刻咱们准备将 zl ij 最后确定为
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/b03277ce6dc84e988ad982b120305b0d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=pN75qIZ7TxCksXm33rRT6hIfKPg%3D" style="width: 50%; margin-bottom: 20px;"></div>
以便启用零值系数。运用以上去噪方法，此刻能够有效地从视图中去除噪声边缘，而无需显式检测反常值。在咱们提出的网络中，去噪和信息传递是迭代执行的，即输入在每次迭代中经过 GNN 层之前经过去噪层。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5f7e62d6c85441419b7157f3f3f2e986~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=bAKxL48MToMoB0q09V2kkcvtv1U%3D" style="width: 50%; margin-bottom: 20px;"></div>
图 2：节点初始化。咱们的去噪层能够在基于生成树的初始化过程中按照局部一致性过滤掉反常边缘，防止广播错误的测绘值
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/dc0636a9ab104c239b2ae58456e6db12~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=rIZ8%2F0SgVrGpkEQjUlsHEkA25KE%3D" style="width: 50%; margin-bottom: 20px;"></div>
图 3：咱们网络中反向传播方法的图示。去噪层按照边缘损失进行更新，而 GNN 参数则按照总损失进行调节。
4.5 图初始化和更新初始化。
回想一下，图形起步配置了节点设置做为节点要素占位符集合，由于在初始化时，输入视图图中的绝对相机方向是未知的（§4.2）。在 PoGO-Net 中，咱们经过在视图图中播种生成树来初始化节点，即为拥有最高度数的节点赋予初始值，而后在其邻域上进行定向广播迭代以广度优先的方式。尽管拥有生成树旋转分布的初始化对于传统办法一般并不鲁棒，由于噪声边缘上的反常值测绘值会逐步传播，但咱们提出的网络经过运用咱们的去噪层能够纠正动态的错误的测绘，从而限制了反常值的传输。详细来讲，去噪层用边缘信息进行参数化，它聚集了“局部边缘一致性”的信息，即反常边缘在其邻域内产生不一致的信息，因此呢容易被移除（§4.4 ）。图 3 给出了咱们初始化过程的说明。
图更新。视图图经过网络层更新边和节点，而节点特征直接参考聚合的节点信息更新，边结构隐含地演变为新兴的邻接矩阵。详细而言，边缘特征与固有的图连接信息一块聚合在边缘信息中。在每次迭代中，在经过更新的局部区域上聚合的边缘信息传递之前，反常边缘被丢弃。形式上，将 φ(·)、φ(·) 和 μ(·) 分别暗示为节点、边和状态的连接的可微 MLP，咱们按照规则更新图
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/ea84a58416834853a863ae156062a936~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=AsDp%2BlYSFa4EqIynSWzhJ8VoOJE%3D" style="width: 50%; margin-bottom: 20px;"></div>
4.6 损失函数损失函数。咱们的损失函数由两个部分构成，一个表率边缘损失，另一个表率节点损失。直观地说，边缘损失衡量输出位姿图的全局一致性，节点损失评定相机的绝对方向的预测。分别将 Le 暗示为边损失，Lv 暗示节点损失，令 Lr 为附加的 l1正则化损失，对应于关于顶点度的节点权重以及关于邻接系数 zij的边权重的加权和，则
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5eaa9848d4324e7b85c783e5597e22d9~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=6ysOIuOTyiOz1CnetOqT84Wduj4%3D" style="width: 50%; margin-bottom: 20px;"></div>
其中 αe, αv,αr∈ (0, 1) 是权重参数。准确地说，将groundtruth相机的绝对方向暗示为{q∗i}，那样咱们有
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/4e06fb61858943d0b2c33738ee7b8668~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=Wa%2FFnn2smJXm9bWfkxPp2AGu3HE%3D" style="width: 50%; margin-bottom: 20px;"></div>
其中 (ˆ·) 暗示输出变量值，∥·∥d暗示对应于 l1四元数度量 d 的范数。咱们的网络是端到端联合训练的，去噪层和 GNN 层参数同期优化。尤其是，虽然 GNN 层针对组合总损失进行了调节，但咱们强制去噪层训练完全依赖于 Le，由于为去噪而设计的“边缘丢弃”方法是基于边缘的当地区域的一致性。表 1：7Scenes 数据集上的实验结果。结果被直接引用，最好的结果被明显表示。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/ecc2b108801f4b60aabcbbadd1d5164a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=FygR%2FMnxH%2FBTrpvFFtEx2kmftH0%3D" style="width: 50%; margin-bottom: 20px;"></div>
训练，针对 PoGO-Net 的训练，咱们运用 SGD 优化网络参数，其中权重衰减设置为 1e-4，学习率初始化为 1e-3。咱们以 64 的批体积训练网络，最大epochs 设置为 300。在咱们的实验中，咱们运用参数 αe= 0.2，αv= 0.7，αr= 0.1 做为损失函数。§5.1 给出了更加多的训练细节。
5. 实验结果咱们的网络运用 SGD 对所有数据集进行端到端训练。这些网络是在 Pytorch 中在拥有 8GB 内存的单个 Nvidia GeForce 1080 GPU 上实现的。
数据集和指标
咱们针对传统和基于学习的最先进的相机姿势回归办法对多个基准进行了广泛的实验。咱们报告中位数和平均方向误差以及实验的运行时间。针对没法得到相对相机姿势测绘的数据集，初始视图图是经过手动运行传统的最先进的SfM系统VisualSfM 给出的高斯噪声（μ = 20◦，σ = 5◦）添加到初始化视图的边缘。ScanNet 是一个 RGB-D 视频数据集，包括超过 1500 次室内扫描的 250 万个视图，groundtruth 包含相机的绝对方向（由给出）、三角表面和语义分割。The Cambridge dataset 包括超过 12000 张拥有真实相机的绝对方向的图像，在剑桥大学周边的 6 个户外场景中拍摄。因为存在海量移动物体和持续变化的闪电要求，该数据集拥有挑战性。7 Scenes 由 7 个相对较小的室内场景构成，由 Kinect RGB-D 相机跟踪。虽然与其他数据集相比，少于 10K 图像的数据集规模较小，但因为场景中存在各样无纹理对象，因此呢视图图拥有很高的噪声，因此呢拥有挑战性。The Photo Tourism datasets 是 19 个户外场景的大型集合，拥有超过 5k 的视图和多个数据集上超过 200K 的相对测绘值。
基线。咱们将 PoGO-Net 的性能与传统和基于学习的最先进办法进行比较，以证明所提出网络的效率和鲁棒性。在这些办法中，IRLS 、IRLS-Robust 、Weiszfeld 、Arrigoni 、DISCO 、CEMP 、MPLS 和Wang 是传统的MRA-PGO办法。基于学习的办法包含 RelocNet 、LsG 、MapNet 、PoseNet15 、PoseNet17 、PoseNet+LSTM 、CNN+GNN 和 NeuRoRA .
5.1 实施细节
针对 PoGO-Net 的训练，咱们采用了无 dropout 的 SGD 优化器。为了防止 GNN 的“过度平滑”，咱们运用 l1正则化在批次（体积 = 64）内进行随机洗牌。主干网络采用原始的 GNN 。咱们按照数据集的传统拆分训练 PoGO-Net，学习率从 1e-3 起始并降低到 1e-5。视图完全运用传统的生成树办法初始化，容易对广播错误的边缘测绘。因此呢，咱们经过在前 10% 的训练数据上将边缘损失 Le（即局部边缘一致性）的权重设置得稍高（αe= 0.35）来处理去噪层参数调节问题。损失分量权重参数设置为 αv= 0.7，αe= 0.2，αr= 0.1，用于所有数据集的训练。尽管咱们将最大 epoch 设置为 300，但咱们已然观察到，在咱们的实验中，验证错误和测试错误的丢弃在 150-230 epoch 上下终止。
5.2.性能比较
7 Scenes。咱们首要在7 Scenes数据集上将 PoGO-Net 与近期最先进的基于学习的 PGO 办法进行比较，定量结果如表 1 所示。能够看出，PoGO-Net 在大都数场景上都取得了最好的效果，其中在 Fire 和 Heads 数据集上 PoGO-Net 的性能大大优于其他办法。在 Pumpkin 和 Stairs 数据集上，PoGO-Net 略逊于以前的办法。思虑到这两个场景都持有海量拥有重复图案和无纹理表面的视图，错误的重点原因源于噪声极重的图像检索，即错误的特征提取和匹配引起初始视图在大都数边缘上严重损坏。表 2：剑桥数据集上的实验结果。结果被直接引用，最好的结果被明显表示。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/9d2a6fc7efa049e98c9456d6bcd57183~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=QrXz1KkElH1WC1oXNe1N0rDLFKE%3D" style="width: 50%; margin-bottom: 20px;"></div>
请重视，和都运用了 ResNet 特征提取器，与咱们在图像检索周期用于初始视图图生成的传统办法 VisualSfM 相比，它更加鲁棒。
剑桥数据集。在剑桥数据集的实验中，咱们经过对区别数据集的训练证明了 PoGO-Net 的可迁移性。结果在表 2 中给出。详细来讲，咱们在剑桥数据集上记录了可比较的测试结果，PoGO-Net 仅在 7Scenes 、ScanNet 和 Photo Tourism 数据集上单独训练。咱们最后报告了在剑桥数据集上进行训练和测试的性能，咱们的 PoGO-Net 在大多数场景中都表现出显着的优良，进一步证明了网络在大规模户外场景中的鲁棒性。请重视，无为 PoseNet15 和 PoseNet+LSTM 供给 Trinity Great Court 和 Street 的数据，两种办法的平均误差基于左侧四个场景的结果。表 3：ScanNet 数据集上的实验结果。结果基于 5 次常规办法运行。平均运行时间在 CPU 上进行评定。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p9-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/c79d23108b7f4d46b49f14b3651f301d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=g0NRC6FG5XuWlRmIMkWMUKaMksA%3D" style="width: 50%; margin-bottom: 20px;"></div>
ScanNet。而后，咱们针对传统的最先进办法测试 PoGO-Net 的性能。详细来讲，咱们记录了方向误差和运行时间，以证明 PoGO-Net 与传统 MRA-PGO 办法相比的准确性和效率。咱们还包含 NeuRoRA 报告的结果，这是一个基于 GNN 的 MRA 框架，拥有两个子网络。请重视，NeuRoRA 是运用作者捕捉的合成数据集进行预训练的，CleanNet 和 Fine-tuning 网络是掰开训练的，而 PoGO-Net 是在无预调参数的状况下端到端训练的。咱们引用中针对 NeuRoRA 报告的结果，咱们执行常规办法并报告 5 次运行平均值，结果如表 3 所示。能够看出，POGO-NET在准确性和速度上都大大优于以前的办法。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/18f468d8a3cb4fb59adefbc86832eea5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=5zdG61NqlFmHL2HJ3jNAsM9LnHY%3D" style="width: 50%; margin-bottom: 20px;"></div>
图 4：对分布到 a) 10% b) 20% 视图边缘的噪声的区别去噪层设置的科研。
Tourism。与 ScanNet 上的实验类似，照片旅游数据集上实验的方向误差和运行时间在表 4 中报告。咱们部分引用了中的结果。能够观察到，PoGO-Net 在大部分场景中都取得了最好的效果。在拥有大规模视图图的数据集（例如 Piccadilly）上，PoGO-Net 经过比传统办法快 400 倍来证明其效率，并且与基于学习的 NeuroRA 相比快近 2 倍。弥补材料中供给了完整的结果和更加多的实验分析。
5.3 消融科研
为了科研去噪层的效果，咱们对 7Scenes 数据集和 PoGO-Net 的几种变体进行了消融科研。仔细地，咱们用 0%、30%、50% 的数量重新训练网络原始 PoGO-Net 中的去噪层，并在测试集上测试它们，并在视图图中随机选取的边缘上添加额外的噪声（从 1° 到 10°）。准确度图如图 4 所示 . 在去噪层设置为 0% 的状况下，运用生成树方法初始化视图图中的节点非常困难，由于边缘误差在图上严重传播。因此呢，在 GNN 的实验中- 独一的变化，咱们首要经过强制循环标识手动过滤掉视图图中随机选取的循环中的反常边缘。能够看出，尽管拥有较少去噪层的网络能够工作但与原来相比，它产生的准确率要低得多。另外，值得重视的是，尽管噪声水平持续增多，PoGO-Net 的准确性仍保持稳定，进一步证明了网络的鲁棒性。弥补材料中供给了关于去噪层效应的完整科研表 4：Tourism Dataset的实验结果。咱们报告 CPU 上的方向误差 (◦) 和运行时间 (s)。明显表示最佳结果。完整的结果在弥补材料中给出
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a0be71084402473bb3dba55ef6fc76f6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725642948&x-signature=hPg9YjpUskIKIet9FrSeMYLqEEQ%3D" style="width: 50%; margin-bottom: 20px;"></div>
5.4 讨论和将来工作
为了进一步证明 PoGO-Net 的泛化能力，咱们在 KITTI Odometry 上对其进行了测试，并将其与最先进的 SLAM 办法 ORB-SLAM 集成。评定和分析在弥补材料中给出。观察到 PoGO-Net 实现了高精度的实时性能，进一步验证了 PoGO-Net 扩展到完整 SfM/SLAM 系统的潜能。虽然准确的 MRA，尤其是与基于图形的公式相结合，是紧凑和轻量级的，能够有效地处理 PGO，但扩展用于 SE(3) 回归的 PoGO-Net 既不是直接的亦不是微不足道的。尽管如此，咱们仍然相信，特征子网的采用赋予了完整的位姿估计，使得旋转和平移能够在图形形式中一起优化。
6. 结论
在这项工作中，咱们提出了一种由 GNN 推动的新型 PGO 方法，即 PoGO-Net，以利用 MRA 进行相机的绝对位姿回归。PoGO-Net 将嘈杂的视图做为输入，其中节点和边被设计为对成对的几何约束进行编码，并与局部图的一致性进行聚合。为认识决向鲁棒的 MRA-GNN 办法去除反常边缘的问题，咱们经过在噪声或损坏的边缘上利用边缘丢弃方法来设计去噪层，这些边缘被参数化网络有效地过滤掉。咱们的联合损失函数嵌入了 MRA 公式，支持端到端训练，从而同期优化去噪层和 GNN 层的参数。多个基准的广泛实验证明了 PoGO-Net 的准确性、效率和鲁棒性。
致谢
这项工作得到了国家科学基金会帮助 2006665 和 1814745 的部分支持。
参考文献
参见：微X公众号「3D视觉工坊」原文
本文仅做学术分享，如有侵权，请联系删文。
3D视觉工坊精品课程官网：https://www.3dcver.com
1.面向自动驾驶行业的多传感器数据融合技术
2.面向自动驾驶行业的3D点云目的检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计办法：算法梳理与代码实现
11.自动驾驶中的深度学习模型安排实战
12.相机模型与标定(单目+双目+鱼眼）
13.重磅！四旋翼飞行器：算法与实战
14.ROS2从入门到精通：理论与实战
15.国内首个3D缺陷检测教程：理论、源码与实战
更加多干货
欢迎加入【3D视觉工坊】交流群，方向触及3D视觉、计算机视觉、深度学习、vSLAM、激光SLAM、立体视觉、自动驾驶、点云处理、三维重建、多视图几何、结构光、多传感器融合、VR/AR、学术交流、求职交流等。工坊致力于干货输出，为3D行业贡献自己的力量！欢迎大众一块交流成长~
添加小助手微X：dddvision，备注学校/机构+姓名+科研方向就可加入工坊一块学习进步。

流星的美 发表于 2024-9-10 05:42:27

系统提示我验证码错误1500次＼~゛，

4lqedz 发表于 2024-10-25 03:20:39

你的话深深触动了我，仿佛说出了我心里的声音。

b1gc8v 发表于 2024-10-29 18:31:28

期待你更多的精彩评论，一起交流学习。

qzmjef 发表于 2024-11-3 15:55:48

感谢你的精彩评论，为我的思绪打开了新的窗口。

页: [1]

外链论坛's Archiver

PoGO-Net：运用图神经网络进行姿势图优化（ICCV 2021）