j8typz 发表于 2024-8-31 12:07:41

PoGO-Net:运用图神经网络进行姿势图优化(ICCV 2021)


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">PoGO-Net: Pose Graph Optimization with Graph Neural Networks</strong>李欣怡 * Magic Leap,美国加利福尼亚州桑尼维尔xinli@magicleap.comHaibin Ling † 美国纽约州斯托尼布鲁克石溪大学hling@cs.stonybrook.edu</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">链接:</strong><span style="color: black;">https://www3.cs.stonybrook.edu/~hling/publication/PoGO-Net-21.pdf</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者:幸运的石头|<span style="color: black;">源自</span>:<span style="color: black;">微X</span>公众号「3D视觉工坊」</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">摘要</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">准确的相机位姿估计或全局相机重定位Structure-from-Motion (SfM) 和 SLAM 系统的核心组件。给定成对的相对的相机位姿,位姿图对其进行优化(PGO),这<span style="color: black;">包含</span>到求解一组优化的全局一致的相机的绝对位姿。在这项工作中,<span style="color: black;">咱们</span>提出了一种由图神经网络 (GNN) 驱动的新型 PGO <span style="color: black;">方法</span>,即 PoGO-Net,利用multiple rotation averaging (MRA) 进行相机的绝对位姿回归。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,PoGO-Net 将有噪声的视图<span style="color: black;">做为</span>输入,其中节点和边被设计为对几何约束和局部图一致性进行编码。<span style="color: black;">另外</span>,<span style="color: black;">咱们</span><span style="color: black;">经过</span>利用隐式边缘丢弃<span style="color: black;">方法</span>来<span style="color: black;">处理</span><span style="color: black;">反常</span>边缘去除问题,其中噪声或损坏的边缘<span style="color: black;">经过</span>参数化网络有效地过滤掉。<span style="color: black;">另外</span>,<span style="color: black;">咱们</span>引入了嵌入 MRA 公式的联合损失函数,使得鲁棒推理即使在大规模场景中<span style="color: black;">亦</span>能够实现实时性能。<span style="color: black;">咱们</span>提出的网络在公共基准上进行了端到端的训练,在广泛的实验中优于最先进的<span style="color: black;">办法</span>,这些实验证明了<span style="color: black;">咱们</span>提出的网络的效率和鲁棒性</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">1. 引言</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">视觉定位或相机姿态估计是许多计算机视觉和<span style="color: black;">设备</span>人任务的核心,其应用<span style="color: black;">包含</span><span style="color: black;">设备</span>人导航、自动驾驶和<span style="color: black;">加强</span>现实。相机姿态估计是<span style="color: black;">经过</span>图像检索借助序列信息<span style="color: black;">自动</span>确定方向和位置的过程。<span style="color: black;">做为</span>标准相机位姿估计<span style="color: black;">办法</span>中的关键组件,位姿图优化(PGO)<span style="color: black;">包含</span>成对相机相对位姿的迭代估计和噪声全局视图的渐进式优化。在大<span style="color: black;">都数</span>传统的运动结构 (SfM) 和 SLAM 系统中,PGO 是<span style="color: black;">经过</span>利用特征帧对应来数值求解高维非凸逼近问题,<span style="color: black;">一般</span>会产生高计算成本。尽管<span style="color: black;">处理</span> SfM 系统后端优化的<span style="color: black;">科研</span>激增,但仍有许多挑战存在。<span style="color: black;">首要</span>,规范求解器在输入<span style="color: black;">体积</span>方面<span style="color: black;">拥有</span>三次阶的<span style="color: black;">繁杂</span>性,并<span style="color: black;">逐步</span>减慢 ,从而丧失了实时<span style="color: black;">需求</span>。其次,成对相对相机姿态的<span style="color: black;">测绘</span><span style="color: black;">一般</span>是存在噪声的,会在视图中产生损坏和错误的边缘,从而损害传统<span style="color: black;">办法</span>和基于学习的<span style="color: black;">办法</span>的性能 。第三,<span style="color: black;">运用</span>深度学习网络对结构和运动进行直接回归容易<span style="color: black;">显现</span>过度拟合 ,从而阻碍了<span style="color: black;">实质</span>应用中的鲁棒性和通用性。受<span style="color: black;">近期</span>成功的图神经网络 (GNN) 的启发,<span style="color: black;">咱们</span><span style="color: black;">这里</span>提出了一种新的基于 GNN 的 PGO <span style="color: black;">方法</span>,以<span style="color: black;">处理</span><span style="color: black;">以上</span>所有问题,即 PoGO-Net。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,<span style="color: black;">咱们</span><span style="color: black;">运用</span>视图边缘上的成对的几何约束对边缘信息进行编码,并与局部一致性信息聚合。相机的绝对方向被编码为节点特征,<span style="color: black;">按照</span>其连接的边缘和相邻节点进行更新。当<span style="color: black;">咱们</span>将输入<span style="color: black;">哪些</span>被视为<span style="color: black;">拥有</span>错误和冗余边的损坏图时,<span style="color: black;">咱们</span><span style="color: black;">经过</span>利用拓扑参数化网络层进行“边缘丢弃”来<span style="color: black;">处理</span>图去噪问题,即移除<span style="color: black;">反常</span>边缘<span style="color: black;">按照</span>局部图的一致性,得到输入视图的更稀疏但更精确的子图。<span style="color: black;">咱们</span>重新定义<span style="color: black;">信息</span>聚合并设计基于多次旋转平均(MRA)算法的损失函数,<span style="color: black;">经过</span><span style="color: black;">有效</span>的<span style="color: black;">信息</span>传递<span style="color: black;">方法</span>,<span style="color: black;">咱们</span>提出的网络即使在大规模数据集下<span style="color: black;">亦</span>能够实时处理.<span style="color: black;">另外</span>,<span style="color: black;">咱们</span>的网络<span style="color: black;">拥有</span>端到端的可微结构,其中去噪层和 GNN 层的参数在训练<span style="color: black;">时期</span>联合优化。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">咱们</span>的贡献<span style="color: black;">能够</span>总结如下:</strong>• <span style="color: black;">咱们</span>提出了一种新的 PGO 公式,以 GNN 为燃料,<span style="color: black;">经过</span>利用 MRA <span style="color: black;">方法</span>进行相机的绝对位姿回归。• <span style="color: black;">咱们</span>设计去噪层来<span style="color: black;">处理</span>PGO 中的<span style="color: black;">反常</span>边缘去除问题。<span style="color: black;">咱们</span>提出的去噪层与 GNN 层<span style="color: black;">一块</span>迭代执行,隐含地利用了“边缘丢弃”<span style="color: black;">方法</span>。• <span style="color: black;">咱们</span>端到端训练 PoGO-Net,该网络<span style="color: black;">能够</span><span style="color: black;">容易</span>地与传统和基于学习的 SfM 系统集成*。对公共基准的广泛实验证明了<span style="color: black;">咱们</span>提出的网络的准确性、效率和鲁棒性。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">2. <span style="color: black;">关联</span>工作传统的 PGO <span style="color: black;">办法</span>。</strong>给定一个 3D 场景,最初<span style="color: black;">经过</span>应用鲁棒的<span style="color: black;">办法</span> 来估计成对的相机的相对位姿,以去除匹配的对应<span style="color: black;">反常</span>值的特征,从而拟合基本/本征矩阵,<span style="color: black;">而后</span>是视图重新细化,即 PGO 迭代。在传统 SfM <span style="color: black;">办法</span>的标准 PGO <span style="color: black;">办法</span> 中,<span style="color: black;">处理</span>高维非凸优化问题 <span style="color: black;">重点</span><span style="color: black;">包含</span>采用迭代非线性数值求解器 <span style="color: black;">经过</span>联合优化来优化3D 场景点、相机方向和平移 即bundle adjustment (BA) 来最小化重投影误差。<span style="color: black;">做为</span> BA 中的一个子问题,旋转平均 (RA) 致力于在给定一组相对相机旋转的存在噪声的<span style="color: black;">测绘</span>值的<span style="color: black;">状况</span>下求解相机方向,并且<span style="color: black;">能够</span>归类为单旋转平均 和多次旋转平均 (MRA) 。前者在给定几个估计的<span style="color: black;">状况</span>下<span style="color: black;">供给</span>了一次旋转的最佳解决<span style="color: black;">方法</span>,而后者<span style="color: black;">能够</span>被视为同步问题,其<span style="color: black;">目的</span>是在给定噪声边缘标签的<span style="color: black;">状况</span>下恢复图中的未知顶点标签 。近年来,<span style="color: black;">咱们</span>见证了对 MRA 的<span style="color: black;">科研</span>兴趣激增 。尽管旋转群空间<span style="color: black;">拥有</span>非凸性,<span style="color: black;">然则</span>MRA 仍然是一个计算上难以<span style="color: black;">处理</span>的问题,但与基于点帧对应的传统 BA <span style="color: black;">办法</span>相比,它<span style="color: black;">经过</span><span style="color: black;">准许</span>更低的维度和<span style="color: black;">繁杂</span>性<span style="color: black;">表示</span>出<span style="color: black;">优良</span> ,实现更快、更轻的求解器。然而,MRA 的<span style="color: black;">重点</span>挑战与<span style="color: black;">反常</span>边缘<span style="color: black;">关联</span>,即,<span style="color: black;">倘若</span>不<span style="color: black;">认识</span>视图中边缘上的噪声分布,MRA 的准确性和鲁棒性会受到<span style="color: black;">极重</span>损害 。<span style="color: black;">近期</span>有<span style="color: black;">海量</span>针对鲁棒<span style="color: black;">有效</span>的 MRA <span style="color: black;">办法</span>的工作,这些<span style="color: black;">办法</span><span style="color: black;">能够</span>进一步分为显式<span style="color: black;">反常</span>值检测/去除<span style="color: black;">方法</span> 和隐式降噪<span style="color: black;">方法</span> 。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">基于学习的 SfM <span style="color: black;">办法</span></strong>。直到<span style="color: black;">近期</span>,<span style="color: black;">科研</span>兴趣才集中在将深度神经网络整合到 SfM <span style="color: black;">办法</span>和相机位姿估计任务中 。<span style="color: black;">做为</span>最早采用神经网络进行相机位姿回归的工作之一,中提出的深度卷积神经网络位姿回归器是<span style="color: black;">按照</span>嵌入相机的绝对位姿预测误差的损失函数进行训练的。虽然 率先将神经网络的优点融合到姿态回归框架中,但它<span style="color: black;">无</span>将视图的帧内约束或连通性纳入优化,<span style="color: black;">因此呢</span>在准确性上几乎<span style="color: black;">无</span>超过在 中所改进的那样的传统的<span style="color: black;">方法</span>。其他工作利用给定序列图像之间的代数或几何关系,并训练网络预测以定位图像 ,其中 <span style="color: black;">经过</span>配备双向的<span style="color: black;">拥有</span> CNN-RNN 模型的方向 LSTM 来利用序列图像的时间一致性,使得时间规律性<span style="color: black;">能够</span>在回归中<span style="color: black;">供给</span><span style="color: black;">更加多</span>的姿势信息。 中的<span style="color: black;">办法</span><span style="color: black;">经过</span>利用来自 IMU 和 GPS 的额外<span style="color: black;">测绘</span>来训练具有帧之间成对几何约束的 DNN 模型。采用神经网络<span style="color: black;">亦</span><span style="color: black;">极重</span>地有利于平行<span style="color: black;">科研</span>,<span style="color: black;">包含</span> 3D 配准和点云对齐 。<span style="color: black;">近期</span>的工作 是<span style="color: black;">第1</span>个在完整的相机的绝对位姿回归框架中利用 GNN 的<span style="color: black;">科研</span>,其中作者<span style="color: black;">运用</span>与 CNN 提取的图像特征融合的节点对视图图进行建模。另一种<span style="color: black;">近期</span>的<span style="color: black;">办法</span> 提出了一个基于 GNN 的网络来<span style="color: black;">处理</span> MRA,其中网络由两个子网络<span style="color: black;">构成</span>,分别<span style="color: black;">处理</span><span style="color: black;">反常</span>值去除和姿势细化。尽管这两种基于 GNN 的<span style="color: black;">办法</span>都取得了令人满意的性能,但存在局限性并且<span style="color: black;">能够</span>进行改进。例如,节点特征和边缘值的<span style="color: black;">关联</span>性在中被视为纯二元,丢弃帧之间的几何约束。<span style="color: black;">另外</span>,该图被初始化为完全连接的,这可能会引入<span style="color: black;">海量</span>冗余和错误的边。在<span style="color: black;">咱们</span>的工作中,<span style="color: black;">咱们</span><span style="color: black;">运用</span>视图边缘上的成对的几何约束对边缘<span style="color: black;">信息</span>进行编码,并与局部一致性信息聚合。尽管受到 NeuRoRA 的启发,<span style="color: black;">然则</span><span style="color: black;">咱们</span>所提出的网络<span style="color: black;">经过</span><span style="color: black;">知道</span>制定边缘<span style="color: black;">信息</span>来实现“边缘丢弃”<span style="color: black;">方法</span>,而前者仅在节点上进行<span style="color: black;">信息</span>聚合。<span style="color: black;">另外</span>,<span style="color: black;">经过</span><span style="color: black;">准许</span>节点-边联合<span style="color: black;">信息</span>聚合能更有效地<span style="color: black;">保存</span>图信息,<span style="color: black;">这般</span>只需要一个损失,从而促进端到端训练,而额外的视图清理损失被<span style="color: black;">包含</span>在网络NeuRoRA 的工作设计中。<span style="color: black;">尤其</span>是,<span style="color: black;">咱们</span><span style="color: black;">经过</span>引入去噪层来有效地去除<span style="color: black;">反常</span>值,从而<span style="color: black;">处理</span>了<span style="color: black;">咱们</span>提出的网络的鲁棒性问题。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">图神经网络。</strong>凭借其强大而敏捷的数据<span style="color: black;">暗示</span>,GNNs 在众多计算机视觉任务中表现出色。尽管取得了成功,但<span style="color: black;">因为</span> GNN 对噪声图的脆弱性,直接采用 GNN 来<span style="color: black;">处理</span> PGO 并不适用 。在<span style="color: black;">咱们</span>的工作中,<span style="color: black;">咱们</span><span style="color: black;">经过</span>采用参数化去噪层来减少<span style="color: black;">反常</span>边缘的<span style="color: black;">消极</span>影响 。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3. 问题<span style="color: black;">描述</span></strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3.1.预备知识和符号</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">给定<span style="color: black;">拥有</span> n 个图像帧的 3D 场景,<span style="color: black;">思虑</span>存在帧 Ii和 Ij之间的相对旋转的<span style="color: black;">测绘</span> ̃Rij∈ SO(3)。假设在 ̃Rij无噪声的理想<span style="color: black;">状况</span>下,Ii和 Ij的绝对旋转 Ri, Rj∈ SO(3) 满足 ̃Rij= RjR−1 i 。然而,在实践中,相对<span style="color: black;">测绘</span>值<span style="color: black;">一般</span>是有噪声的并且<span style="color: black;">包括</span><span style="color: black;">反常</span>值,<span style="color: black;">因此呢</span>相机的绝对方向估计是寻求一组与相对<span style="color: black;">测绘</span>值全局一致的相机方向,这个过程<span style="color: black;">叫作</span>为多次旋转平均(MRA)。形式上,MRA 是一个变换同步问题,它<span style="color: black;">包含</span>最小化一个代价函数,该函数最小化相对旋转 ̃Rij和RjR−1 i的<span style="color: black;">测绘</span>值之间的差异。即求解以下<span style="color: black;">目的</span>函数</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/fc28100c18364037acf5d3cfdcf4deef~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=B9sj51eIVk9YgTKBY6Ml3WnRrFo%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中 ρ(· ) 是鲁棒的代价函数,d(·,·) 是距离度量。<span style="color: black;">咱们</span>在整篇论文中采用四元数参数化和相应的度量。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3.2.位姿图优化</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">有了上面定义的 MRA 问题,<span style="color: black;">此刻</span><span style="color: black;">咱们</span>准备制定 PGO 过程。让图 G = (V, E) <span style="color: black;">暗示</span>初始视图,其中顶点集 V = {vi|i ≤ n} <span style="color: black;">暗示</span>要估计的相机的绝对方向的集合,边缘集 E = {(i, j)|vi, vj∈ V} 描述了图像帧之间相对相机方向的成对<span style="color: black;">测绘</span>的可用性。在实践中,视图的边缘经常有噪声,这使<span style="color: black;">咱们</span><span style="color: black;">没法</span>直接在 G 上进行 MRA。E有噪声的<span style="color: black;">原由</span>有两个:1)鉴于图像检索中存在不可减少的错误(例如特征匹配),<span style="color: black;">针对</span>基于深度学习的<span style="color: black;">办法</span> 和传统的几何约束<span style="color: black;">办法</span> ,<span style="color: black;">反常</span>值成对的相对<span style="color: black;">测绘</span>值很难消除 2)<span style="color: black;">因为</span>多个摄像机<span style="color: black;">能够</span>共享<span style="color: black;">类似</span>的视图,<span style="color: black;">因此呢</span>视图图<span style="color: black;">常常</span><span style="color: black;">拥有</span>冗余边缘,<span style="color: black;">因此呢</span>在方程式1中定义的MRA<span style="color: black;">一般</span>是“过度约束”。在<span style="color: black;">咱们</span>的工作中,<span style="color: black;">咱们</span><span style="color: black;">经过</span>利用由参数化去噪层融合的“边缘丢弃”<span style="color: black;">方法</span>来处理视图图中的噪声,从而修复和消除噪声/冗余边缘,<span style="color: black;">而后</span>真正可操作地在G的正确子图上进行MRA</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4. PoGO-Net 架构</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在本节中,<span style="color: black;">咱们</span>将<span style="color: black;">仔细</span>介绍所提出的 PoGO-Net,如图 1 所示。<span style="color: black;">详细</span>而言,<span style="color: black;">咱们</span><span style="color: black;">首要</span>在第 4.1 节中给出网络架构概述,<span style="color: black;">而后</span><span style="color: black;">经过</span>在第 4.2 节<span style="color: black;">中间商</span>绍<span style="color: black;">咱们</span>的图结构和特征嵌入。<span style="color: black;">而后</span>,<span style="color: black;">咱们</span>在第 4.3 节中说明了<span style="color: black;">咱们</span>的<span style="color: black;">信息</span>聚合<span style="color: black;">方法</span>的新颖结构,其中节点<span style="color: black;">信息</span>和边缘<span style="color: black;">信息</span>都经过有效编码,以收集<span style="color: black;">每一个</span>节点<span style="color: black;">周边</span>的所有信息。4.4节描述了<span style="color: black;">咱们</span>提出的网络中的去噪层,其中去噪层被设计为与 GNN 层<span style="color: black;">一块</span>迭代执行,以便<span style="color: black;">能够</span>有效地隐式去除<span style="color: black;">反常</span>边缘。在 4.5 和 4.6 中,<span style="color: black;">咱们</span>强调了图更新规则和<span style="color: black;">意见</span>的损失函数。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4.1.架构概述</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">如图 1 所示,<span style="color: black;">咱们</span>的 PoGO-Net 将噪声视图<span style="color: black;">做为</span>输入并输出优化的位姿图。<span style="color: black;">因为</span>输入中的相机的绝对方向是未知的,<span style="color: black;">咱们</span><span style="color: black;">经过</span>在<span style="color: black;">拥有</span>最高程度(即与大<span style="color: black;">都数</span>节点连接)的节点上播种生成树来初始化节点特征,并借助<span style="color: black;">咱们</span>去噪层主动去除<span style="color: black;">反常</span>边缘的<span style="color: black;">帮忙</span>在图上传播初始化。该网络<span style="color: black;">拥有</span>多层前馈架构,由去噪层和 GNN 层<span style="color: black;">构成</span>。在每次迭代中,去噪层在<span style="color: black;">经过</span> GNN 层更新聚合<span style="color: black;">信息</span>之前对<span style="color: black;">反常</span>边缘执行“边缘丢弃”<span style="color: black;">方法</span>。PoGO-Net 是完全可微的,并且经过端到端训练,<span style="color: black;">能够</span>联合优化去噪层和 GNN 层。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4.2.特征嵌入</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">针对</span>输入视图 G = (V, E),<span style="color: black;">暗示</span>相对方向集的边集 E <span style="color: black;">包括</span>位姿估计所需的大部分基本信息。设̃rij∈ SO(3), (i, j) ∈ E <span style="color: black;">暗示</span>连接 vi和 vj的边的特征向量。<span style="color: black;">因为</span>节点<span style="color: black;">表率</span>未知的相机的绝对方向,让qi∈ SO(3),vi∈ V <span style="color: black;">表率</span>节点特征。{qi|vi∈ V} <span style="color: black;">能够</span>看作是一组特征占位符,在训练过程中以生成树的方式交互初始化,<span style="color: black;">更加多</span>细节在 4.5节中给出。从 E 派生的指示<span style="color: black;">每一个</span>节点邻域的二进制矩阵的邻接矩阵 AG与常规 GNN 相比,<span style="color: black;">咱们</span>工作中的邻接矩阵由参数化变量形成。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,由 AG <span style="color: black;">构成</span>的元素的值说明了相应的边缘<span style="color: black;">暗示</span>的<span style="color: black;">测绘</span>值<span style="color: black;">是不是</span><span style="color: black;">靠谱</span>,即,小的值<span style="color: black;">寓意</span>着边缘容易<span style="color: black;">显现</span>噪声<span style="color: black;">乃至</span><span style="color: black;">反常</span>值。AG 参数化的<span style="color: black;">仔细</span>信息在 §4.4 中。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8be209ba584343cb8404f9ecbf9065cf~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=UhwTcS1b9FKOJr1UudXV1hsw6AU%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图1:PoGO-Net<span style="color: black;">办法</span>示意图。<span style="color: black;">咱们</span>提出的网络将噪声视图图<span style="color: black;">做为</span>输入,输出是优化的位姿图。该网络采用<span style="color: black;">拥有</span><span style="color: black;">信息</span>传递<span style="color: black;">方法</span>的多层前馈架构,其中<span style="color: black;">信息</span>在<span style="color: black;">每一个</span>节点的连接边和相邻节点上聚合。去噪层旨在去除<span style="color: black;">反常</span>边缘,并与 GNN 层迭代执行。最好以彩色观看</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4.3.<span style="color: black;">信息</span>聚合</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">咱们</span>的网络采用多层前馈架构,利用<span style="color: black;">信息</span>传递<span style="color: black;">方法</span> 实现,即聚合信息在<span style="color: black;">每一个</span>节点的邻域内传播。<span style="color: black;">因为</span>节点和边<span style="color: black;">经过</span>网络层交互更新,<span style="color: black;">咱们</span>设计了一种新颖的联合<span style="color: black;">信息</span>聚合<span style="color: black;">方法</span>来有效地编码节点<span style="color: black;">信息</span>和边<span style="color: black;">信息</span>。<span style="color: black;">仔细</span>地,记为第 l 层节点 vi的邻域 Nl i = {vj|(i, j) ∈ El},<span style="color: black;">信息</span>生成如下</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/965f4b2f3b0c41b3a556ebd7768b4825~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=RSHSvBVnIyEa6xwX6Q6p%2BLg1Izw%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中<span style="color: black;">暗示</span>连接,πi<span style="color: black;">暗示</span>节点 vi的状态。<span style="color: black;">针对</span> PGO,从与给定相机姿态共享视图的所有相邻相机收集信息是必不可少的,<span style="color: black;">因此呢</span><span style="color: black;">咱们</span>将 vi的状态特征与其邻域中的所有连接边缘和节点特征组合在<span style="color: black;">一块</span>。值得<span style="color: black;">重视</span>的是,<span style="color: black;">因为</span><span style="color: black;">咱们</span>提出的网络能够在训练<span style="color: black;">时期</span>过滤掉<span style="color: black;">反常</span>值/冗余边缘,E 在<span style="color: black;">区别</span>的层中变得更稀疏但更精确(<span style="color: black;">仔细</span>信息在第 4.4 节中给出)。节点状态<span style="color: black;">信息</span>的两个<span style="color: black;">构成</span>部分对应于相邻节点的所有连接边。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4.4.图去噪</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">因为</span> PoGO-Net 的输入经常存在<span style="color: black;">反常</span>值/冗余边,<span style="color: black;">因此呢</span>直接将 GNN 应用于 PGO 任务是不切<span style="color: black;">实质</span>的,因为沿边的<span style="color: black;">信息</span>聚合可能会传播和放大<span style="color: black;">全部</span>图上的噪声。在<span style="color: black;">咱们</span>提出的网络中,<span style="color: black;">咱们</span><span style="color: black;">经过</span>利用“边缘丢弃”去噪层和 GNN 层来降低噪声,<span style="color: black;">这般</span>边缘和节点会<span style="color: black;">按照</span> §4.3 中定义的相应<span style="color: black;">信息</span>传递进行交互更新。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,<span style="color: black;">思虑</span>网络第I层的邻接矩阵 Al G,在<span style="color: black;">咱们</span>的网络中,Al G 的元素<span style="color: black;">暗示</span>回归中相应边缘特征的权重 ̃rl ij。<span style="color: black;">亦</span><span style="color: black;">便是</span>说,Al G = AG⊙ Zl,其中 Zl<span style="color: black;">暗示</span>二进制系数矩阵 {zl ij },⊙<span style="color: black;">暗示</span>逐元素乘法运算。在之后,<span style="color: black;">咱们</span>将二进制元素 zl ij 从纯二进制放宽为边缘<span style="color: black;">信息</span>ml ̃rij 的确定性函数 g 的值,如方程式3,使得系数是连续的和非二进制的。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,令 εl是与ml ̃rij无关的均匀分布随机变量,则zl ij定义为</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/e3d0d871835c4fe3aa516c5cc7c5b170~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=0wIdAees59FRr19yGscoeTZFGX4%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/81712d3e9255496cba5b13bb2a1d9634~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=CrriNbdAqs1m15%2F7%2BSYHAilRKjU%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">是由于</span> γl参数化的 MLP。当<span style="color: black;">咱们</span>鼓励网络为优化去除边时,<span style="color: black;">咱们</span>将 zl ij 的开放域 (0, 1) 扩展到<span style="color: black;">包含</span> 0。将 ul ij <span style="color: black;">暗示</span>为从由边缘<span style="color: black;">信息</span>,即</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0cf5d4aaa9784a0283f752a082b9fa8c~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=xMR%2BeekefwpsFhqRLRbfoYAn%2FZo%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中 τ &gt; 0 <span style="color: black;">暗示</span>温度参数 和</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/eb3f95b79062419197ba8b52d02f197b~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=cj4S5DiKh2xoIMgBp111XF4%2FgTc%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">是 sigmoid 函数。既然<span style="color: black;">咱们</span>要ul ij∈ (a, b) 且 a &lt; 0 且 b &gt; 0,<span style="color: black;">因此呢</span><span style="color: black;">咱们</span>将ul ij更新为</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/410569d659db49158a55ae2e1265b233~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=%2FxjD4DTaVHxFIpLbAGgGCbyeQa0%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">。<span style="color: black;">此刻</span><span style="color: black;">咱们</span>准备将 zl ij <span style="color: black;">最后</span>确定为</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/b03277ce6dc84e988ad982b120305b0d~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=pN75qIZ7TxCksXm33rRT6hIfKPg%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">以便启用零值系数。<span style="color: black;">运用</span><span style="color: black;">以上</span>去噪<span style="color: black;">方法</span>,<span style="color: black;">此刻</span><span style="color: black;">能够</span>有效地从视图中去除噪声边缘,而无需显式检测<span style="color: black;">反常</span>值。在<span style="color: black;">咱们</span>提出的网络中,去噪和<span style="color: black;">信息</span>传递是迭代执行的,即输入在每次迭代中<span style="color: black;">经过</span> GNN 层之前<span style="color: black;">经过</span>去噪层。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5f7e62d6c85441419b7157f3f3f2e986~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=bAKxL48MToMoB0q09V2kkcvtv1U%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图 2:节点初始化。<span style="color: black;">咱们</span>的去噪层能够在基于生成树的初始化过程中<span style="color: black;">按照</span>局部一致性过滤掉<span style="color: black;">反常</span>边缘,防止广播错误的<span style="color: black;">测绘</span>值</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/dc0636a9ab104c239b2ae58456e6db12~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=rIZ8%2F0SgVrGpkEQjUlsHEkA25KE%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图 3:<span style="color: black;">咱们</span>网络中反向传播<span style="color: black;">方法</span>的图示。去噪层<span style="color: black;">按照</span>边缘损失进行更新,而 GNN 参数则<span style="color: black;">按照</span>总损失进行<span style="color: black;">调节</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4.5 图初始化和更新初始化</strong>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">回想一下,图形<span style="color: black;">起步</span>配置了节点设置<span style="color: black;">做为</span>节点要素占位符集合,<span style="color: black;">由于</span>在初始化时,输入视图图中的绝对相机方向是未知的(§4.2)。在 PoGO-Net 中,<span style="color: black;">咱们</span><span style="color: black;">经过</span>在视图图 中播种生成树来初始化节点,即为<span style="color: black;">拥有</span>最高度数的节点赋予初始值,<span style="color: black;">而后</span>在其邻域上进行定向广播迭代以广度优先的方式。尽管<span style="color: black;">拥有</span>生成树旋转分布的初始化对于传统<span style="color: black;">办法</span><span style="color: black;">一般</span>并不鲁棒,<span style="color: black;">由于</span>噪声边缘上的<span style="color: black;">反常</span>值<span style="color: black;">测绘</span>值会<span style="color: black;">逐步</span>传播,但<span style="color: black;">咱们</span>提出的网络<span style="color: black;">经过</span><span style="color: black;">运用</span><span style="color: black;">咱们</span>的去噪层能够纠正动态的错误的<span style="color: black;">测绘</span>,从而限制了<span style="color: black;">反常</span>值的传输。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,去噪层用边缘<span style="color: black;">信息</span>进行参数化,它聚集了“局部边缘一致性”的信息,即<span style="color: black;">反常</span>边缘在其邻域内产生不一致的<span style="color: black;">信息</span>,<span style="color: black;">因此呢</span>容易被移除(§4.4 )。图 3 给出了<span style="color: black;">咱们</span>初始化过程的说明。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">图更新</strong>。视图图<span style="color: black;">经过</span>网络层更新边和节点,而节点特征直接参考聚合的节点<span style="color: black;">信息</span>更新,边结构隐含地演变为新兴的邻接矩阵。<span style="color: black;">详细</span>而言,边缘特征与固有的图连接信息<span style="color: black;">一块</span>聚合在边缘<span style="color: black;">信息</span>中。在每次迭代中,在<span style="color: black;">经过</span>更新的局部区域上聚合的边缘<span style="color: black;">信息</span>传递之前,<span style="color: black;">反常</span>边缘被丢弃。形式上,将 φ(·)、φ(·) 和 μ(·) 分别<span style="color: black;">暗示</span>为节点、边和状态的连接的可微 MLP,<span style="color: black;">咱们</span><span style="color: black;">按照</span>规则更新图</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/ea84a58416834853a863ae156062a936~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=AsDp%2BlYSFa4EqIynSWzhJ8VoOJE%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">4.6 损失函数损失函数</strong>。<span style="color: black;">咱们</span>的损失函数由两个部分<span style="color: black;">构成</span>,一个<span style="color: black;">表率</span>边缘损失,另一个<span style="color: black;">表率</span>节点损失。直观地说,边缘损失衡量输出位姿图的全局一致性,节点损失<span style="color: black;">评定</span>相机的绝对方向的预测。分别将 Le <span style="color: black;">暗示</span>为边损失,Lv <span style="color: black;">暗示</span>节点损失,令 Lr 为附加的 l1正则化损失,对应于关于顶点度的节点权重以及关于邻接系数 zij的边权重的加权和,则</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5eaa9848d4324e7b85c783e5597e22d9~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=6ysOIuOTyiOz1CnetOqT84Wduj4%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中 αe, αv,αr∈ (0, 1) 是权重参数。准确地说,将groundtruth相机的绝对方向<span style="color: black;">暗示</span>为{q∗i},<span style="color: black;">那样</span><span style="color: black;">咱们</span>有</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/4e06fb61858943d0b2c33738ee7b8668~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=Wa%2FFnn2smJXm9bWfkxPp2AGu3HE%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中 (ˆ·) <span style="color: black;">暗示</span>输出变量值,∥·∥d<span style="color: black;">暗示</span>对应于 l1四元数度量 d 的范数。<span style="color: black;">咱们</span>的网络是端到端联合训练的,去噪层和 GNN 层参数<span style="color: black;">同期</span>优化。<span style="color: black;">尤其</span>是,虽然 GNN 层针对组合总损失进行了<span style="color: black;">调节</span>,但<span style="color: black;">咱们</span>强制去噪层训练完全依赖于 Le,<span style="color: black;">由于</span>为去噪而设计的“边缘丢弃”<span style="color: black;">方法</span>是基于边缘的当地区域的一致性。表 1:7Scenes 数据集 上的实验结果。结果被直接引用,最好的结果被<span style="color: black;">明显</span><span style="color: black;">表示</span>。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/ecc2b108801f4b60aabcbbadd1d5164a~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=FygR%2FMnxH%2FBTrpvFFtEx2kmftH0%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">训练</strong>,<span style="color: black;">针对</span> PoGO-Net 的训练,<span style="color: black;">咱们</span><span style="color: black;">运用</span> SGD 优化网络参数,其中权重衰减设置为 1e-4,学习率初始化为 1e-3。<span style="color: black;">咱们</span>以 64 的批<span style="color: black;">体积</span>训练网络,最大epochs 设置为 300。在<span style="color: black;">咱们</span>的实验中,<span style="color: black;">咱们</span><span style="color: black;">运用</span>参数 αe= 0.2,αv= 0.7,αr= 0.1 <span style="color: black;">做为</span>损失函数。§5.1 给出了<span style="color: black;">更加多</span>的训练细节。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">5. 实验结果</strong><span style="color: black;">咱们</span>的网络<span style="color: black;">运用</span> SGD 对所有数据集进行端到端训练。这些网络是在 Pytorch 中在<span style="color: black;">拥有</span> 8GB 内存的单个 Nvidia GeForce 1080 GPU 上实现的。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">数据集和指标</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">咱们</span>针对传统和基于学习的最先进的相机姿势回归<span style="color: black;">办法</span>对多个基准进行了广泛的实验。<span style="color: black;">咱们</span>报告中位数和平均<span style="color: black;">方向</span>误差以及实验的运行时间。<span style="color: black;">针对</span><span style="color: black;">没法</span><span style="color: black;">得到</span>相对相机姿势<span style="color: black;">测绘</span>的数据集,初始视图图是<span style="color: black;">经过</span>手动运行传统的最先进的SfM系统VisualSfM 给出的高斯噪声(μ = 20◦,σ = 5◦)添加到初始化视图的边缘。ScanNet 是一个 RGB-D 视频数据集,<span style="color: black;">包括</span>超过 1500 次室内扫描的 250 万个视图,groundtruth <span style="color: black;">包含</span>相机的绝对方向(由 给出)、三角表面和语义分割。The Cambridge dataset <span style="color: black;">包括</span>超过 12000 张<span style="color: black;">拥有</span>真实相机的绝对方向的图像,在剑桥大学<span style="color: black;">周边</span>的 6 个户外场景中拍摄。<span style="color: black;">因为</span>存在<span style="color: black;">海量</span>移动物体和<span style="color: black;">持续</span>变化的闪电<span style="color: black;">要求</span>,该数据集<span style="color: black;">拥有</span>挑战性。7 Scenes 由 7 个相对较小的室内场景<span style="color: black;">构成</span>,由 Kinect RGB-D 相机跟踪。虽然与其他数据集相比,少于 10K 图像的数据集规模较小,但<span style="color: black;">因为</span>场景中存在<span style="color: black;">各样</span>无纹理对象,<span style="color: black;">因此呢</span>视图图<span style="color: black;">拥有</span>很高的噪声,<span style="color: black;">因此呢</span><span style="color: black;">拥有</span>挑战性。The Photo Tourism datasets 是 19 个户外场景的大型集合,<span style="color: black;">拥有</span>超过 5k 的视图和多个数据集上超过 200K 的相对<span style="color: black;">测绘</span>值。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">基线</strong>。<span style="color: black;">咱们</span>将 PoGO-Net 的性能与传统和基于学习的最先进<span style="color: black;">办法</span>进行比较,以证明所提出网络的效率和鲁棒性。在这些<span style="color: black;">办法</span>中,IRLS 、IRLS-Robust 、Weiszfeld 、Arrigoni 、DISCO 、CEMP 、MPLS 和Wang 是传统的MRA-PGO<span style="color: black;">办法</span>。基于学习的<span style="color: black;">办法</span><span style="color: black;">包含</span> RelocNet 、LsG 、MapNet 、PoseNet15 、PoseNet17 、PoseNet+LSTM 、CNN+GNN 和 NeuRoRA .</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">5.1 实施细节</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">针对</span> PoGO-Net 的训练,<span style="color: black;">咱们</span>采用了<span style="color: black;">无</span> dropout 的 SGD 优化器。为了防止 GNN 的“过度平滑”,<span style="color: black;">咱们</span><span style="color: black;">运用</span> l1正则化在批次(<span style="color: black;">体积</span> = 64)内进行随机洗牌。主干网络采用原始的 GNN 。<span style="color: black;">咱们</span><span style="color: black;">按照</span>数据集的传统拆分训练 PoGO-Net,学习率从 1e-3 <span style="color: black;">起始</span>并降低到 1e-5。视图完全<span style="color: black;">运用</span>传统的生成树<span style="color: black;">办法</span>初始化,容易对广播错误的边缘<span style="color: black;">测绘</span>。<span style="color: black;">因此呢</span>,<span style="color: black;">咱们</span><span style="color: black;">经过</span>在前 10% 的训练数据上将边缘损失 Le(即局部边缘一致性)的权重设置得稍高(αe= 0.35)来<span style="color: black;">处理</span>去噪层参数<span style="color: black;">调节</span>问题。损失分量权重参数设置为 αv= 0.7,αe= 0.2,αr= 0.1,用于所有数据集的训练。尽管<span style="color: black;">咱们</span>将最大 epoch 设置为 300,但<span style="color: black;">咱们</span><span style="color: black;">已然</span>观察到,在<span style="color: black;">咱们</span>的实验中,验证错误和测试错误的丢弃在 150-230 epoch <span style="color: black;">上下</span>终止。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">5.2.性能比较</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">7 Scenes。</strong><span style="color: black;">咱们</span><span style="color: black;">首要</span>在7 Scenes数据集上将 PoGO-Net 与<span style="color: black;">近期</span>最先进的基于学习的 PGO <span style="color: black;">办法</span>进行比较,定量结果如表 1 所示。<span style="color: black;">能够</span>看出,PoGO-Net 在大<span style="color: black;">都数</span>场景上都取得了最好的效果,其中在 Fire 和 Heads 数据集上 PoGO-Net 的性能大大优于其他<span style="color: black;">办法</span>。在 Pumpkin 和 Stairs 数据集上,PoGO-Net 略逊于以前的<span style="color: black;">办法</span>。<span style="color: black;">思虑</span>到这两个场景都<span style="color: black;">持有</span><span style="color: black;">海量</span><span style="color: black;">拥有</span>重复图案和无纹理表面的视图,错误的<span style="color: black;">重点</span><span style="color: black;">原因</span>源于噪声<span style="color: black;">极重</span>的图像检索,即错误的特征提取和匹配<span style="color: black;">引起</span>初始视图在大<span style="color: black;">都数</span>边缘上严重损坏。表 2:剑桥数据集 上的实验结果。结果被直接引用,最好的结果被<span style="color: black;">明显</span><span style="color: black;">表示</span>。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/9d2a6fc7efa049e98c9456d6bcd57183~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=QrXz1KkElH1WC1oXNe1N0rDLFKE%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">请<span style="color: black;">重视</span>, 和 都<span style="color: black;">运用</span>了 ResNet 特征提取器,与<span style="color: black;">咱们</span>在图像检索<span style="color: black;">周期</span>用于初始视图图生成的传统<span style="color: black;">办法</span> VisualSfM 相比,它更加鲁棒。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">剑桥数据集</strong>。在剑桥数据集的实验中,<span style="color: black;">咱们</span><span style="color: black;">经过</span>对<span style="color: black;">区别</span>数据集的训练证明了 PoGO-Net 的可迁移性。结果在表 2 中给出。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,<span style="color: black;">咱们</span>在剑桥数据集上记录了可比较的测试结果,PoGO-Net 仅在 7Scenes 、ScanNet 和 Photo Tourism 数据集上单独训练。<span style="color: black;">咱们</span><span style="color: black;">最后</span>报告了在剑桥数据集上进行训练和测试的性能,<span style="color: black;">咱们</span>的 PoGO-Net 在大多数场景中都表现出显着的<span style="color: black;">优良</span>,进一步证明了网络在大规模户外场景中的鲁棒性。请<span style="color: black;">重视</span>,<span style="color: black;">无</span>为 PoseNet15 和 PoseNet+LSTM <span style="color: black;">供给</span> Trinity Great Court 和 Street 的数据,两种<span style="color: black;">办法</span>的平均误差基于左侧四个场景的结果。表 3:ScanNet 数据集 上的实验结果。结果基于 5 次常规<span style="color: black;">办法</span>运行。平均运行时间在 CPU 上进行<span style="color: black;">评定</span>。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p9-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/c79d23108b7f4d46b49f14b3651f301d~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=g0NRC6FG5XuWlRmIMkWMUKaMksA%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">ScanNet。</strong><span style="color: black;">而后</span>,<span style="color: black;">咱们</span>针对传统的最先进<span style="color: black;">办法</span>测试 PoGO-Net 的性能。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,<span style="color: black;">咱们</span>记录了<span style="color: black;">方向</span>误差和运行时间,以证明 PoGO-Net 与传统 MRA-PGO <span style="color: black;">办法</span>相比的准确性和效率。<span style="color: black;">咱们</span>还<span style="color: black;">包含</span> NeuRoRA 报告的结果,这是一个基于 GNN 的 MRA 框架,<span style="color: black;">拥有</span>两个子网络。请<span style="color: black;">重视</span>,NeuRoRA 是<span style="color: black;">运用</span>作者<span style="color: black;">捕捉</span>的合成数据集进行预训练的,CleanNet 和 Fine-tuning 网络是<span style="color: black;">掰开</span>训练的,而 PoGO-Net 是在<span style="color: black;">无</span>预调参数的<span style="color: black;">状况</span>下端到端训练的。<span style="color: black;">咱们</span>引用 中针对 NeuRoRA 报告的结果,<span style="color: black;">咱们</span>执行常规<span style="color: black;">办法</span>并报告 5 次运行平均值,结果如表 3 所示。<span style="color: black;">能够</span>看出,POGO-NET在准确性和速度上都大大优于以前的<span style="color: black;">办法</span>。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/18f468d8a3cb4fb59adefbc86832eea5~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=5zdG61NqlFmHL2HJ3jNAsM9LnHY%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图 4:对分布到 a) 10% b) 20% 视图边缘的噪声的<span style="color: black;">区别</span>去噪层设置的<span style="color: black;">科研</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">Tourism</strong>。与 ScanNet 上的实验类似,照片旅游数据集 上实验的<span style="color: black;">方向</span>误差和运行时间在表 4 中报告。<span style="color: black;">咱们</span>部分引用了 中的结果。<span style="color: black;">能够</span>观察到,PoGO-Net 在大部分场景中都取得了最好的效果。在<span style="color: black;">拥有</span>大规模视图图的数据集(例如 Piccadilly)上,PoGO-Net <span style="color: black;">经过</span>比传统<span style="color: black;">办法</span>快 400 倍来证明其效率,并且与基于学习的 NeuroRA 相比快近 2 倍。<span style="color: black;">弥补</span>材料中<span style="color: black;">供给</span>了完整的结果和<span style="color: black;">更加多</span>的实验分析。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">5.3 消融<span style="color: black;">科研</span></strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了<span style="color: black;">科研</span>去噪层的效果,<span style="color: black;">咱们</span>对 7Scenes 数据集和 PoGO-Net 的几种变体进行了消融<span style="color: black;">科研</span>。<span style="color: black;">仔细</span>地,<span style="color: black;">咱们</span>用 0%、30%、50% 的数量重新训练网络 原始 PoGO-Net 中的去噪层,并在测试集上测试它们,并在视图图中随机<span style="color: black;">选取</span>的边缘上添加额外的噪声(从 1° 到 10°)。准确度图如图 4 所示 . 在去噪层设置为 0% 的<span style="color: black;">状况</span>下,<span style="color: black;">运用</span>生成树<span style="color: black;">方法</span>初始化视图图中的节点非常困难,<span style="color: black;">由于</span>边缘误差在图上严重传播。<span style="color: black;">因此呢</span>,在 GNN 的实验中- <span style="color: black;">独一</span>的变化,<span style="color: black;">咱们</span><span style="color: black;">首要</span><span style="color: black;">经过</span>强制循环标识手动过滤掉视图图中随机<span style="color: black;">选取</span>的循环中的<span style="color: black;">反常</span>边缘。<span style="color: black;">能够</span>看出,尽管<span style="color: black;">拥有</span>较少去噪层的网络<span style="color: black;">能够</span>工作但与原来相比,它产生的准确率要低得多。<span style="color: black;">另外</span>,值得<span style="color: black;">重视</span>的是,尽管噪声水平<span style="color: black;">持续</span><span style="color: black;">增多</span>,PoGO-Net 的准确性仍保持稳定,进一步证明了网络的鲁棒性。<span style="color: black;">弥补</span>材料中<span style="color: black;">供给</span>了关于去噪层效应的完整<span style="color: black;">科研</span>表 4:Tourism Dataset的实验结果 。<span style="color: black;">咱们</span>报告 CPU 上的<span style="color: black;">方向</span>误差 (◦) 和运行时间 (s)。<span style="color: black;">明显</span><span style="color: black;">表示</span>最佳结果。完整的结果在<span style="color: black;">弥补</span>材料中给出</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a0be71084402473bb3dba55ef6fc76f6~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725642948&amp;x-signature=hPg9YjpUskIKIet9FrSeMYLqEEQ%3D" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">5.4 讨论和<span style="color: black;">将来</span>工作</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了进一步证明 PoGO-Net 的泛化能力,<span style="color: black;">咱们</span>在 KITTI Odometry 上对其进行了测试,并将其与最先进的 SLAM <span style="color: black;">办法</span> ORB-SLAM 集成。<span style="color: black;">评定</span>和分析在<span style="color: black;">弥补</span>材料中给出。观察到 PoGO-Net 实现了高精度的实时性能,进一步验证了 PoGO-Net 扩展到完整 SfM/SLAM 系统的<span style="color: black;">潜能</span>。虽然准确的 MRA,<span style="color: black;">尤其</span>是与基于图形的公式相结合,是紧凑和轻量级的,<span style="color: black;">能够</span>有效地<span style="color: black;">处理</span> PGO,但扩展用于 SE(3) 回归的 PoGO-Net 既不是直接的<span style="color: black;">亦</span>不是微不足道的。尽管如此,<span style="color: black;">咱们</span>仍然相信,特征子网的采用赋予了完整的位姿估计,使得旋转和平移<span style="color: black;">能够</span>在图形形式中<span style="color: black;">一起</span>优化。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">6. 结论</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在这项工作中,<span style="color: black;">咱们</span>提出了一种由 GNN 推动的新型 PGO <span style="color: black;">方法</span>,即 PoGO-Net,以利用 MRA 进行相机的绝对位姿回归。PoGO-Net 将嘈杂的视图<span style="color: black;">做为</span>输入,其中节点和边被设计为对成对的几何约束进行编码,并与局部图的一致性进行聚合。为<span style="color: black;">认识</span>决向鲁棒的 MRA-GNN <span style="color: black;">办法</span>去除<span style="color: black;">反常</span>边缘的问题,<span style="color: black;">咱们</span><span style="color: black;">经过</span>在噪声或损坏的边缘上利用边缘丢弃<span style="color: black;">方法</span>来设计去噪层,这些边缘被参数化网络有效地过滤掉。<span style="color: black;">咱们</span>的联合损失函数嵌入了 MRA 公式,支持端到端训练,从而<span style="color: black;">同期</span>优化去噪层和 GNN 层的参数。多个基准的广泛实验证明了 PoGO-Net 的准确性、效率和鲁棒性。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">致谢</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这项工作得到了国家科学基金会<span style="color: black;">帮助</span> 2006665 和 1814745 的部分支持。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">参考文献</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">参见:</strong><span style="color: black;">微X</span>公众号「3D视觉工坊」原文</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">本文仅做学术分享,如有侵权,请联系删文。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">3D视觉工坊精品课程官网:https://www.3dcver.com</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1.面向自动驾驶<span style="color: black;">行业</span>的多传感器数据融合技术</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2.面向自动驾驶<span style="color: black;">行业</span>的3D点云<span style="color: black;">目的</span>检测全栈学习路线!(单模态+多模态/数据+代码)</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">4.国内首个面向工业级实战的点云处理课程</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">9.从零搭建一套结构光3D重建系统[理论+源码+实践]</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">10.单目深度估计<span style="color: black;">办法</span>:算法梳理与代码实现</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">11.自动驾驶中的深度学习模型<span style="color: black;">安排</span>实战</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">12.相机模型与标定(单目+双目+鱼眼)</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">13.重磅!四旋翼飞行器:算法与实战</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">14.ROS2从入门到精通:理论与实战</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">15.国内首个3D缺陷检测教程:理论、源码与实战</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">更加多</span>干货</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">欢迎加入【3D视觉工坊】交流群,方向<span style="color: black;">触及</span>3D视觉、计算机视觉、深度学习、vSLAM、激光SLAM、立体视觉、自动驾驶、点云处理、三维重建、多视图几何、结构光、多传感器融合、VR/AR、学术交流、求职交流等。工坊致力于干货输出,为3D<span style="color: black;">行业</span>贡献自己的力量!欢迎<span style="color: black;">大众</span><span style="color: black;">一块</span>交流成长~</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">添加小助手<span style="color: black;">微X</span>:dddvision,备注学校/<span style="color: black;">机构</span>+姓名+<span style="color: black;">科研</span>方向<span style="color: black;">就可</span>加入工坊<span style="color: black;">一块</span>学习进步。</p>




流星的美 发表于 2024-9-10 05:42:27

系统提示我验证码错误1500次 \~゛,
页: [1]
查看完整版本: PoGO-Net:运用图神经网络进行姿势图优化(ICCV 2021)