fny5jt9 发表于 2024-10-2 23:55:08

伦敦大学学院、思科、爱丁堡大学开源EdgeVL!面向边缘设备的自适应视觉-语言大模型


    <h2 style="color: black; text-align: left; margin-bottom: 10px;">
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">点击“</span><span style="color: black;">计算机视觉life</span><span style="color: black;">”,<span style="color: black;">选取</span>“星标”</span></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">设备</span>人AI干货<span style="color: black;">第1</span>时间送达</span></p>
    </h2><span style="color: black;">论文信息</span>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">题目:Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者:Kaiwen Cai, Zhekai Duan, Gaowen Liu, Charles Fleming, Chris Xiaoxuan Lu</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">公司</span>:<span style="color: black;">英国伦敦大学学院</span><span style="color: black;">MAPS Lab、</span>美国Cisco<span style="color: black;">科研</span>院、<span style="color: black;">英国爱丁堡大学</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">原文链接:https://arxiv.org/abs/2403.04908v2</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">源码链接:https://github.com/ramdrop/edgevl</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">编译:zty@计算机视觉life</p><span style="color: black;">
      <div style="color: black; text-align: left; margin-bottom: 10px;">
            <div style="color: black; text-align: left; margin-bottom: 10px;">
                <div style="color: black; text-align: left; margin-bottom: 10px;">
                  <div style="color: black; text-align: left; margin-bottom: 10px;">
                        <div style="color: black; text-align: left; margin-bottom: 10px;">
                            <div style="color: black; text-align: left; margin-bottom: 10px;">关闭</div>
                            <div style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;">观看<span style="color: black;">更加多</span></strong></div>
                            <div style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">更加多</span></div>
                        </div>
                  </div>
                </div>
            </div>
            <div style="color: black; text-align: left; margin-bottom: 10px;">
                <div style="color: black; text-align: left; margin-bottom: 10px;">
                  <div style="color: black; text-align: left; margin-bottom: 10px;">
                        <div style="color: black; text-align: left; margin-bottom: 10px;">
                            <div style="color: black; text-align: left; margin-bottom: 10px;">退出全屏</div>
                        </div>
                  </div>
                </div>
            </div>
            <div style="color: black; text-align: left; margin-bottom: 10px;">
                <div style="color: black; text-align: left; margin-bottom: 10px;">
                  <div style="color: black; text-align: left; margin-bottom: 10px;">
                        <div style="color: black; text-align: left; margin-bottom: 10px;">
                            <div style="color: black; text-align: left; margin-bottom: 10px;">
                              <div style="color: black; text-align: left; margin-bottom: 10px;">
                                    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">视频加载失败,请刷新页面再试</p><a style="color: black;"><img src="" style="width: 50%; margin-bottom: 20px;"> 刷新 </a>
                              </div><img src="" style="width: 50%; margin-bottom: 20px;">
                            </div>
                        </div>
                  </div>
                </div>
            </div>
      </div>
      <div style="color: black; text-align: left; margin-bottom: 10px;">
            <div style="color: black; text-align: left; margin-bottom: 10px;"> <a style="color: black;"> 视频详情 </a> </div>
      </div>
    </span>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">内容速览</span></h2>EdgeVL是<strong style="color: blue;">首个系统性地<span style="color: black;">处理</span>大型VL模型适应边缘设备的框架</strong>,支持在<strong style="color: blue;">不依赖手动注释</strong>的<span style="color: black;">状况</span>下<span style="color: black;">运用</span>多种视觉模态。EdgeVL能够<strong style="color: blue;">从预训练的VL模型转移视觉语言对齐能力到紧凑的视觉模型</strong>,消除了对注释的<span style="color: black;">需要</span>。作者<strong style="color: blue;">整合了量化感知训练和对比学习损失</strong>,这种<span style="color: black;">办法</span>不仅在量化后保持了特征<span style="color: black;">暗示</span>的质量,<span style="color: black;">况且</span>还<span style="color: black;">明显</span><span style="color: black;">加强</span>了模型在<span style="color: black;">区别</span>视觉模态中的辨别能力。<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">摘要</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">随着视觉-语言(Vision-Language, VL)模型技术的快速发展,人们越来越<span style="color: black;">期盼</span>将其<span style="color: black;">安排</span>在边缘设备上。然而,这些模型在处理多样化的视觉模态、缺乏标注数据以及计算资源受限等方面仍面临挑战。本文提出了一种名为EdgeVL的创新框架,<span style="color: black;">经过</span>整合双模态知识蒸馏和量化感知对比学习技术,有效克服了这些<span style="color: black;">困难</span>。EdgeVL框架使得像CLIP<span style="color: black;">这般</span>的大型VL模型能够无需手动标注,就能在资源受限的设备上<span style="color: black;">有效</span>处理RGB和非RGB图像。它不仅能够将视觉语言的对齐能力迁移到更紧凑的模型中,还能在模型量化后维持特征的质量,<span style="color: black;">明显</span><span style="color: black;">提高</span>了<span style="color: black;">区别</span>视觉模态下的开放词汇<span style="color: black;">归类</span>性能。本<span style="color: black;">科研</span>是首次系统性地将大型VL模型适配到边缘设备上,实现了在多个数据集上准确率最多<span style="color: black;">提高</span>15.4%,模型尺寸减少最多达93倍的成果。<span style="color: black;">关联</span>代码<span style="color: black;">已然</span>开源,<span style="color: black;">位置</span>为 https://github.com/ramdrop/edgevl。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">1 引言</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">近年来,视觉-语言(Vision-Language, VL)模型在能够处理视觉和文本数据的综合推理方面取得了<span style="color: black;">明显</span><span style="color: black;">发展</span>。例如,大规模的VL模型CLIP,它采用了独立的图像和文本编码器,将图像和文本嵌入到一个<span style="color: black;">一起</span>的特征空间中,使得两种模态之间能够直接进行比较。这些模型<span style="color: black;">经过</span>比较图像嵌入和<span style="color: black;">各样</span>潜在文本嵌入之间的<span style="color: black;">类似</span>度,促进了零样本和开放词汇的视觉识别任务,<span style="color: black;">包含</span>图像<span style="color: black;">归类</span>、语义分割和<span style="color: black;">目的</span>检测。然而,VL模型在边缘设备上的<span style="color: black;">安排</span>面临三大挑战:(i) 对多样化视觉模态的泛化能力,(ii) 野外环境中标签的稀缺性,以及(iii) 设备上的计算资源限制。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">首要</span>,边缘设备<span style="color: black;">一般</span>配备有多种传感器,除了标准的RGB相机外,还有深度传感器和红外相机等,这些在边缘设备如现场<span style="color: black;">设备</span>人或智能门铃中,在<span style="color: black;">拥有</span>挑战性的光照<span style="color: black;">要求</span>下进行视觉理解至关重要。尽管如此,大<span style="color: black;">都数</span>大型VL模型的视觉编码器<span style="color: black;">重点</span>针对RGB图像进行了优化,对深度或红外图像等替代输入的适应性尚未得到充分探索。其次,尽管边缘设备能够生成<span style="color: black;">海量</span>图像,但这些图像<span style="color: black;">一般</span><span style="color: black;">无</span>标签,这在缺少人类指定注释的野外环境中构<span style="color: black;">成为了</span>一个重大<span style="color: black;">阻碍</span>,阻碍了模型在标注数据集上的直接应用。第三,即使能够实现<span style="color: black;">区别</span>视觉模态之间的知识转移,视觉编码器(例如CLIP中<span style="color: black;">运用</span>的ViT)的高计算<span style="color: black;">需要</span><span style="color: black;">亦</span>使其在计算资源受限的边缘设备上难以实现。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了克服这些挑战,作者需要一个新的框架,它能够无需人工注释<span style="color: black;">就可</span>将大型模型的VL嵌入能力适应到非RGB图像上,<span style="color: black;">同期</span>最小化计算<span style="color: black;">需要</span>以适应边缘设备的能力。现有文献<span style="color: black;">一般</span>孤立地<span style="color: black;">处理</span>这些问题,要么关注跨模态知识转移,要么关注模型压缩(例如量化、剪枝和蒸馏)。然而,这两个<span style="color: black;">行业</span>之间的相互<span style="color: black;">功效</span>和潜在协同效应尚未得到充分探索,更<span style="color: black;">不消</span>说标签稀缺性的影响。实证结果<span style="color: black;">显示</span>(见表3),简单地将这两个模块结合起来会<span style="color: black;">引起</span>大型VL模型性能<span style="color: black;">显著</span>下降。</p><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/4AqSEnNUer8KAnMibgY1KBB9QlCuicficJSjxRJ8JAJn1dMKcn73782ziaeAxhw8Cib3DuFPUKZI5wHUC3bDEckaHQA/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">表 3: <span style="color: black;">运用</span><span style="color: black;">区别</span>量化<span style="color: black;">办法</span>的EdgeVL模型在开放词汇<span style="color: black;">归类</span>准确率上的比较。重点展示了量化感知训练结合对比学习损失对准确率的正面影响。| ©【计算机视觉life】编译<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在本工作中,作者提出了EdgeVL,这是一个简化的两<span style="color: black;">周期</span>适应框架,它将知识转移与模型压缩技术无缝集成。<span style="color: black;">首要</span>,EdgeVL利用双模态知识蒸馏过程,<span style="color: black;">运用</span>预训练的视觉编码器<span style="color: black;">做为</span>教师模型,将知识蒸馏到更紧凑的学生模型中。该学生模型旨在处理RGB和非RGB图像,<span style="color: black;">保证</span>与常规大型VL模型中<span style="color: black;">类似</span>的视觉特征与文本<span style="color: black;">暗示</span>的对齐。这一初始<span style="color: black;">周期</span><span style="color: black;">经过</span>架构优化<span style="color: black;">明显</span><span style="color: black;">加强</span>了模型效率。随后,为了进一步<span style="color: black;">加强</span>模型在边缘<span style="color: black;">安排</span>中的效率和特征提取的有效性,框架采用了量化感知训练(Quantization-Aware Training, QAT),并结合了一种新颖的对比学习损失。这种<span style="color: black;">繁杂</span><span style="color: black;">办法</span><span style="color: black;">最后</span>产生了一个针对边缘设备优化的低比特率视觉编码器模型,在RGB和非RGB图像的开放词汇<span style="color: black;">归类</span>任务中展现出卓越的性能(见图1)。</p><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/4AqSEnNUer8KAnMibgY1KBB9QlCuicficJS6o5ULnfaLKnbqmTGTQbj3gWBv8R6pj8khK1LIgnLlvWlichntkSSoyA/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">图 1: 大型视觉-语言模型在<span style="color: black;">区别</span>视觉模态下适应边缘设备的框架示意图。展示了EdgeVL<span style="color: black;">怎样</span>无缝集成双模态知识蒸馏和量化感知对比学习,以实现对资源受限设备的<span style="color: black;">有效</span>适应。| ©【计算机视觉life】编译<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者的<span style="color: black;">重点</span>贡献<span style="color: black;">包含</span>:</p>EdgeVL是首个系统性地<span style="color: black;">处理</span>大型VL模型适应边缘设备的框架,支持在不依赖手动注释的<span style="color: black;">状况</span>下<span style="color: black;">运用</span>多种视觉模态。作者提出了一种<span style="color: black;">办法</span>,能够从预训练的VL模型转移视觉语言对齐能力到紧凑的视觉模型,消除了对注释的<span style="color: black;">需要</span>。作者整合了量化感知训练和对比学习损失,这种<span style="color: black;">办法</span>不仅在量化后保持了特征<span style="color: black;">暗示</span>的质量,<span style="color: black;">况且</span>还<span style="color: black;">明显</span><span style="color: black;">加强</span>了模型在<span style="color: black;">区别</span>视觉模态中的辨别能力。作者展示了EdgeVL在多个数据集上的准确率<span style="color: black;">提高</span>,并<span style="color: black;">仔细</span>介绍了其在<span style="color: black;">区别</span>GPU层级上的效率改进。<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">3 <span style="color: black;">办法</span>论</span></h2>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">3.1 开放词汇<span style="color: black;">归类</span>的<span style="color: black;">基本</span>知识</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">大规模的视觉-语言(VL)模型,例如CLIP,由图像和文本编码器<span style="color: black;">构成</span>,它们在超过4亿对的图像-文本数据上进行训练,以将数据映射到共享特征空间。<span style="color: black;">经过</span>对比训练的方式,CLIP能够优化真实图像-文本对的接近度和虚假对的远离度。这种<span style="color: black;">办法</span>使得CLIP在推理<span style="color: black;">周期</span>能够执行零样本和开放词汇的<span style="color: black;">归类</span>任务,只需<span style="color: black;">评定</span>图像和文本嵌入之间的<span style="color: black;">类似</span>度。然而,CLIP的视觉编码器在非RGB图像的零样本<span style="color: black;">归类</span>任务中表现<span style="color: black;">不良</span>,与RGB图像相比,存在<span style="color: black;">明显</span>的准确度差异。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/4AqSEnNUer8KAnMibgY1KBB9QlCuicficJSM6gHakT6A8Nc15ZuMdUHibGziccEf8BWvia2yZTj2sZibDicq8Vgh24pPnw/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/4AqSEnNUer8KAnMibgY1KBB9QlCuicficJSOdT86xJFWaqsRYwb3e0I38bCLR9eMBGkH2pH7q18q8kric8IZrlicHiaw/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"></p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">3.2 问题定义</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">基于<span style="color: black;">以上</span>背景,作者的<span style="color: black;">目的</span>是将开放词汇<span style="color: black;">归类</span>器适配到装备有多种图像传感器的边缘设备上。假设训练数据集<span style="color: black;">暗示</span>为,其中<span style="color: black;">表率</span>第个RGB图像,而是相应的非RGB图像。例如,移动<span style="color: black;">设备</span>人上的同位摄像头会<span style="color: black;">连续</span>收集这些图像对,作者将<span style="color: black;">运用</span>对图像进行模型适配,且这些图像<span style="color: black;">无</span>标签。假设作者<span style="color: black;">能够</span><span style="color: black;">拜访</span>一个预训练的大型VL模型的RGB图像编码器。EdgeVL的适配<span style="color: black;">目的</span>是<span style="color: black;">研发</span>一个模态不可知且<span style="color: black;">有效</span>的图像编码器,使得以下视觉特征大致相同:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">EdgeVL的<span style="color: black;">全部</span>训练过程不需要人工注释或手动标签。在推理<span style="color: black;">周期</span>,假设测试数据集<span style="color: black;">暗示</span>为,其中是每对图像的类别标签,<span style="color: black;">包括</span>所有可能的开放词汇类别。利用预训练的VL模型的文本编码器和<span style="color: black;">研发</span>的图像编码器,<span style="color: black;">能够</span>将开放词汇类的预测转化为最大特征<span style="color: black;">类似</span>度推断问题:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">理想<span style="color: black;">状况</span>下,<span style="color: black;">倘若</span>适配得当,预测类别和将与真实类别高度一致,并且推理效率将得到<span style="color: black;">提高</span>。</p><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/4AqSEnNUer8KAnMibgY1KBB9QlCuicficJS387xamQneCTDZLgDmJKObXjrIBxYubASh3UAYibicK6wENFZv88qxkcA/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">图 2: EdgeVL两<span style="color: black;">周期</span>适应框架的总体架构。<span style="color: black;">第1</span><span style="color: black;">周期</span>为双模态知识蒸馏,第二<span style="color: black;">周期</span>为量化感知对比学习,说明了学生模型<span style="color: black;">怎样</span>从预训练的教师模型中学习并经过量化优化以适应边缘设备。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">3.3 <span style="color: black;">第1</span><span style="color: black;">周期</span>:双模态知识蒸馏</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">EdgeVL的<span style="color: black;">第1</span><span style="color: black;">周期</span><span style="color: black;">目的</span>是从预训练的VL模型中将教师图像编码器的图像特征蒸馏到学生图像编码器中,以处理双模态图像。<span style="color: black;">针对</span>像CLIP<span style="color: black;">这般</span>的大型VL模型,尽管其图像编码器对未见数据<span style="color: black;">拥有</span><span style="color: black;">必定</span>的零样本迁移能力,但在某些<span style="color: black;">状况</span>下可能<span style="color: black;">供给</span>的信息不足或带有噪声。在野外环境中,手动筛选样本成本<span style="color: black;">昂贵</span>,<span style="color: black;">因此呢</span>作者引入了一种自动化的数据筛选机制,利用VL模型内在的图像和文本比较能力来<span style="color: black;">指点</span>特征蒸馏。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">自动数据集筛选</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者<span style="color: black;">首要</span>创建一个“标签超集”,利用ChatGPT-4引擎生成。这个标签超集<span style="color: black;">做为</span>一个广泛的潜在标签库,适用于多种情境。接着,<span style="color: black;">运用</span>文本编码器将标签超集编码为文本特征,<span style="color: black;">同期</span>图像编码器处理边缘设备的未标记RGB图像以提取视觉特征。<span style="color: black;">针对</span>RGB图像,作者<span style="color: black;">按照</span>其与标签超集中文本的最大图像-文本<span style="color: black;">类似</span>度赋予一个置信度分数:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">一般</span>,带有噪声和信息量少的图像会产生较低的置信度分数,这些图像不适合用于特征蒸馏,<span style="color: black;">因此呢</span>会被排除在进一步处理之外。作者<span style="color: black;">运用</span>预设的阈值来筛选数据集,<span style="color: black;">仅有</span>置信度分数高于该阈值的RGB图像及其同时收集的非RGB对应图像会被<span style="color: black;">保存</span>在训练数据集中。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">特征蒸馏</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">利用筛选后的数据集,作者<span style="color: black;">能够</span>进行特征蒸馏。这一关键<span style="color: black;">过程</span>使紧凑的学生编码器能够<span style="color: black;">经过</span>参考大型教师编码器,有效地从RGB和非RGB图像中提取鲁棒的图像嵌入。作者的<span style="color: black;">办法</span><span style="color: black;">区别</span>于传统<span style="color: black;">办法</span>,它<span style="color: black;">经过</span>权重共享,使统一的学生编码器能够无缝处理任一图像类型。在图2中展示的,<span style="color: black;">针对</span>训练数据集中的每一对RGB和非RGB图像,作者使由学生模型提取的特征与教师模型从RGB图像中提取的特征对齐。这种对齐基于<span style="color: black;">这般</span>的理解:两种图像类型<span style="color: black;">表率</span>同一场景,<span style="color: black;">因此呢</span>学生模型生成的图像特征需要与预训练的VL模型(如CLIP)的特征保持一致。作者定义学生编码器为,并专注于最小化学生模型特征与教师模型特征之间的差异,<span style="color: black;">经过</span>作者的特征蒸馏损失函数:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在<span style="color: black;">这儿</span>,<span style="color: black;">暗示</span>距离函数,作者遵循<span style="color: black;">运用</span>L1距离函数。<span style="color: black;">经过</span>这个损失函数,作者旨在密切对齐学生的特征<span style="color: black;">暗示</span>与教师模型的特征,<span style="color: black;">保证</span>学生模型在RGB和非RGB模态上的能力。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">3.4 第二<span style="color: black;">周期</span>:量化感知对比学习</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在成功<span style="color: black;">得到</span>能够处理双模态图像的学生编码器 &nbsp; &nbsp;之后,作者需要进一步<span style="color: black;">加强</span>其效率,<span style="color: black;">目的</span>是将其转化为一个量化的低比特率模型 &nbsp; ,以适应边缘设备的资源限制。这一过程的挑战在于<span style="color: black;">怎样</span><span style="color: black;">保证</span>量化之后模型仍能保持对特征的表达能力。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">QAT与对比学习的结合</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者<span style="color: black;">首要</span>对 &nbsp; &nbsp;应用后训练量化(PTQ),以此来观察量化对特征辨别性的影响。如图3所示,量化过程后特征的辨别性<span style="color: black;">明显</span>下降,这<span style="color: black;">引起</span>了文本与图像<span style="color: black;">暗示</span>之间的不一致性。与全精度模型相比,特征清晰度的降低凸显了采用量化感知训练(QAT)对<span style="color: black;">最后</span>图像编码器进行优化的必要性。QAT<span style="color: black;">经过</span>在训练过程中引入假量化节点,模拟量化效应,并<span style="color: black;">经过</span>微调预训练模型来适应这些效应(详见<span style="color: black;">弥补</span>材料中的QAT<span style="color: black;">仔细</span>信息)。在实施QAT时,<span style="color: black;">选取</span>一个合适的损失函数非常关键,它需要能够在量化框架内维持<span style="color: black;">乃至</span><span style="color: black;">提高</span>特征的辨别能力。传统的知识蒸馏损失,如公式(4)所定义,目的是将学生模型的特征与预训练教师模型的特征对齐。然而,这种<span style="color: black;">办法</span>可能未能充分利用量化模型在实现鲁棒和辨别特征方面的<span style="color: black;">潜能</span>。<span style="color: black;">因此呢</span>,作者提出将对比学习损失集成到量化感知训练中,目的是培养出对量化<span style="color: black;">导致</span>的非辨别性特征<span style="color: black;">拥有</span>鲁棒性的<span style="color: black;">暗示</span>,并<span style="color: black;">加强</span>特征空间中<span style="color: black;">类似</span>和不<span style="color: black;">类似</span>实例之间的分离度。这种基于对比学习的<span style="color: black;">办法</span>,应该能够支持获取对量化失真影响较小的不变<span style="color: black;">暗示</span>。</p><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/4AqSEnNUer8KAnMibgY1KBB9QlCuicficJSaQmnGsWvP6qWRZQxaK4eTv7pq7C8zWKTWtp8THs2E5G5EXfY8Iyt9A/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">图 3: 在ScanNet数据集上,特征与文本标签之间<span style="color: black;">方向</span>的分布。展示了后训练量化(PTQ)和量化感知训练(QAT)对特征辨别性的影响,以及对比学习损失在量化后对特征表达能力的<span style="color: black;">提高</span>。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">三元组采样策略</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了有效学习,<span style="color: black;">选取</span>正面和<span style="color: black;">消极</span>样本至关重要。作者采用了半硬样本策略,这种策略因其<span style="color: black;">加强</span>特征鲁棒性的能力而被认可。<span style="color: black;">详细</span><span style="color: black;">来讲</span>,<span style="color: black;">针对</span>训练数据集 &nbsp; &nbsp;中的每一对样本 &nbsp; ,作者<span style="color: black;">运用</span>预训练的VL模型生成伪标签如下:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">而后</span>,<span style="color: black;">针对</span><span style="color: black;">每一个</span>训练实例 &nbsp; ,作者识别出与其对应的潜在正面样本集合 &nbsp; &nbsp;和潜在<span style="color: black;">消极</span>样本集合 &nbsp; 。潜在的正面样本是与 &nbsp; &nbsp;共享相同伪标签的样本,而潜在的<span style="color: black;">消极</span>样本则是伪标签<span style="color: black;">区别</span>的样本。作者<span style="color: black;">经过</span>以下方式<span style="color: black;">选取</span>最优匹配的正面样本 &nbsp; :</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者随机<span style="color: black;">选取</span><span style="color: black;">消极</span>样本,并仅<span style="color: black;">保存</span>满足半硬<span style="color: black;">要求</span>的<span style="color: black;">消极</span>样本,即:</p><span style="color: black;">d(\Phi_{edge_{img}} (x_i), \Phi_{edge_{img}} (p_{i,k}^*))
      " style="text-align: center; overflow: auto;"&gt;</span>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中 &nbsp; &nbsp;是预定义的间隔常数。作者定义了精炼后的负样本集的<span style="color: black;">体积</span>为 &nbsp; ,并定义了损失函数:</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">4 实验结果</span></h2>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">4.1 实现</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">本节<span style="color: black;">仔细</span>介绍了EdgeVL的实现细节。<span style="color: black;">做为</span>教师模型,作者采用了OpenCLIP<span style="color: black;">供给</span>的CLIP模型,<span style="color: black;">详细</span>是ViT-g-14 (ViT-G)版本。学生模型则基于ViT-S及其先进变体DAT-T和Swin-T构建,并将<span style="color: black;">归类</span>头替换为特征投影头以适应训练<span style="color: black;">需要</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在<span style="color: black;">第1</span><span style="color: black;">周期</span>训练中,作者<span style="color: black;">运用</span>了AdamW优化器,设置<span style="color: black;">基本</span>学习率为,权重衰减为0.05。作者还采用了余弦退火学习率调度器,它在120个epoch内将学习率<span style="color: black;">逐步</span>降低至。进入第二<span style="color: black;">周期</span>后,作者将<span style="color: black;">基本</span>学习率进一步降至。自动数据筛选中<span style="color: black;">运用</span>的置信度阈值τc,<span style="color: black;">按照</span>训练数据的利用效率和噪声水平,作者经验性地设置为0.25。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">针对</span>CLIP文本编码器,作者<span style="color: black;">按照</span>数据集的<span style="color: black;">区别</span>,<span style="color: black;">运用</span>了相应的文本提示,例如“a photo of a {scene category}.”或“a satellite image of a {scene category}.”。量化模型的结果,作者报告的是静态量化的形式。<span style="color: black;">针对</span>三元组损失函数,作者采用了边际值m=0.3和负样本集<span style="color: black;">体积</span>J=3。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">4.2 总体结果</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">本节展示了EdgeVL与其他几种最先进<span style="color: black;">办法</span>在<span style="color: black;">区别</span>数据集上的性能比较。作者专注于准确性和效率两个关键指标,这<span style="color: black;">针对</span>验证作者<span style="color: black;">办法</span>在边缘设备上的有效性和实用性至关重要。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">数据集</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者<span style="color: black;">选取</span>了ScanNet和EuroSAT数据集进行<span style="color: black;">评定</span>。ScanNet数据集<span style="color: black;">包括</span>了<span style="color: black;">海量</span>的室内RGB-D图像,经过子采样处理后,作者得到了<span style="color: black;">包括</span>18,900张训练图像、5,300张验证图像和2,100张测试图像的数据集,覆盖21个<span style="color: black;">区别</span>的场景类别。<span style="color: black;">因为</span>测试集未<span style="color: black;">供给</span>标签,作者在验证集上进行了模型<span style="color: black;">评定</span>。EuroSAT数据集<span style="color: black;">包括</span>了27,000张卫星图像,涵盖13个光谱波段和10个类别,作者随机分割为13,500张训练图像和13,500张测试图像。为全面<span style="color: black;">评定</span>作者<span style="color: black;">办法</span>的有效性,作者<span style="color: black;">尤其</span><span style="color: black;">选取</span>了RGB和短波红外(SWIR)波段进行<span style="color: black;">评定</span>。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">基线</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">因为</span>缺乏直接适用于作者问题设置的基线,作者适配了几种<span style="color: black;">处理</span>类似问题的<span style="color: black;">办法</span>。例如,CMKD最初设计用于从激光雷达到RGB模型的知识转移,作者将其修改为从CLIP视觉编码器中蒸馏知识到RGB和非RGB模型。Fida框架和CQD<span style="color: black;">办法</span><span style="color: black;">亦</span>被<span style="color: black;">调节</span>为专注于最小化学生模型对之间的特征距离。SKD策略<span style="color: black;">经过</span>其混合技术生成混合模态样本,被作者适配以整合非RGB和RGB图像进行训练。<span style="color: black;">另外</span>,Frank<span style="color: black;">办法</span>和Gupta技术因其在跨模态权重转移和微调方面的<span style="color: black;">关联</span>性而被<span style="color: black;">思虑</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了展示EdgeVL的<span style="color: black;">优良</span>,作者展示了基线模型在全精度(F32)配置下的最佳结果,并为每种<span style="color: black;">状况</span><span style="color: black;">选取</span>了产生最高准确度的骨干网络。作者的比较还<span style="color: black;">包含</span>了两个<span style="color: black;">区别</span>版本的CLIP,分别<span style="color: black;">运用</span>ViT-B/G视觉骨干,作者<span style="color: black;">叫作</span>它们为CLIP-B和CLIP-G。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">准确性</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">表1展示了EdgeVL与基线模型在ScanNet和EuroSAT数据集上的准确性对比。结果<span style="color: black;">显示</span>,EdgeVL在两个数据集上都取得了最高的准确性。<span style="color: black;">尤其</span>是,即使是EdgeVL性能最差的变体ViT-S,在ScanNet数据集上<span style="color: black;">亦</span><span style="color: black;">明显</span>优于其最接近的竞争对手SKD,<span style="color: black;">优良</span>达到了10.2%(34.5%对44.7%)。这一差距在EuroSAT数据集上扩大到了13.9%(49.4%对64.8%)。这些结果突显了EdgeVL在不<span style="color: black;">朋友</span>生编码器架构上的适应性和广泛的适用性。</p><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/4AqSEnNUer8KAnMibgY1KBB9QlCuicficJSiauCGtCicxtDqRiaPge0wxzV9MtOOibbl06YBEstB929QjFI3OqYICKaibA/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">图 4: <span style="color: black;">区别</span>模型在ScanNet和EuroSAT数据集上的预测结果对比。可视化展示了EdgeVL在处理RGB和非RGB图像时,在开放词汇场景<span style="color: black;">归类</span>任务上的优越性能。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">效率</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者在Nvidia的Jetson AGX Orin (32GB)、Jetson Orin Nano (8GB)和RTX4090 GPU上<span style="color: black;">检测</span>了EdgeVL的计算效率。为了模拟<span style="color: black;">实质</span><span style="color: black;">安排</span>场景,作者<span style="color: black;">运用</span>TensorRT引擎进行所有模型推理。<span style="color: black;">因为</span>DAT-T当前与TensorRT不兼容,作者<span style="color: black;">无</span><span style="color: black;">包含</span>它在性能分析中。<span style="color: black;">因为</span>CLIP的ViT-G骨干(CLIP-G)与TensorRT不兼容,作者只报告了其模型<span style="color: black;">体积</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;"></p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">4.3 消融<span style="color: black;">科研</span></span></h2>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">量化感知对比学习的影响</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了深入理解<span style="color: black;">区别</span>量化<span style="color: black;">办法</span>对模型性能的影响,作者对比了后训练量化(+PTQ)与量化感知训练(+QAT)的效果。+PTQ<span style="color: black;">办法</span>将模型权重和激活函数转换为8位整数,而+QAT则在模型中引入了假量化层,随后<span style="color: black;">经过</span>微调来优化性能。<span style="color: black;">另外</span>,作者还<span style="color: black;">思虑</span>了一种结合信息修正和分布引导蒸馏的<span style="color: black;">办法</span>(+QViT),以在微调<span style="color: black;">周期</span><span style="color: black;">提高</span>模型效率。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">表3展示了<span style="color: black;">运用</span><span style="color: black;">区别</span>量化<span style="color: black;">办法</span>对Int8量化模型在开放词汇<span style="color: black;">归类</span>准确率上的影响。作者<span style="color: black;">重点</span>关注静态量化结果,尽管动态量化<span style="color: black;">亦</span><span style="color: black;">表示</span>出类似的趋势,<span style="color: black;">仔细</span>信息见<span style="color: black;">弥补</span>材料。结果<span style="color: black;">显示</span>,仅<span style="color: black;">运用</span>PTQ会<span style="color: black;">引起</span>准确率<span style="color: black;">明显</span>下降,而结合<span style="color: black;">第1</span>阶段损失(公式4)的QAT虽然能够<span style="color: black;">提高</span>准确率,但仍未达到EdgeVL的水平,有时差距<span style="color: black;">乃至</span>超过9.7%(例如40.3%对比50.0%)。EdgeVL在第二<span style="color: black;">周期</span>引入了对比学习,这不仅缓解了量化可能带来的辨别能力降低的问题,<span style="color: black;">况且</span>在量化之后进一步<span style="color: black;">提高</span>了学生编码器的准确性。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">双模态知识蒸馏的影响</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者进一步<span style="color: black;">评定</span>了双模态知识蒸馏在ScanNet和EuroSAT数据集上的效果。表4展示了与CMKD(非RGB)和CMKD(RGB)相比,作者的双模态训练<span style="color: black;">办法</span>在DAT-T模型上取得了更高的准确率。作者的双模态训练<span style="color: black;">办法</span>在ScanNet上的平均准确率<span style="color: black;">加强</span>了15.0%,在EuroSAT上<span style="color: black;">加强</span>了13.1%。<span style="color: black;">尤其</span>是在非RGB模态上,例如深度图像和红外图像,准确率的<span style="color: black;">提高</span><span style="color: black;">显示</span>RGB图像可能为非RGB图像<span style="color: black;">供给</span>了一种数据<span style="color: black;">加强</span>的效果。</p><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;">表 4: 双模态知识蒸馏对EdgeVL性能的影响。展示了在ScanNet和EuroSAT数据集上,双模态训练相较于单模态训练在准确率上的<span style="color: black;">提高</span>。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">τc截断比率的影响</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">表5展示了τc截断比率对EdgeVL(Swin-T)在EuroSAT数据集上准确率的影响。当τc设置为0.25时,模型准确率达到了最高。τc过小可能<span style="color: black;">引起</span>模型训练不充分,而τc过大则可能引入噪声样本,降低知识转移的有效性。</p><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;">表 5: <span style="color: black;">区别</span>置信度阈值τc对EdgeVL在EuroSAT数据集上准确率的影响。展示了τc值<span style="color: black;">选取</span>对模型性能的<span style="color: black;">敏锐</span>性分析。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">三元组采样策略的影响</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者<span style="color: black;">评定</span>了<span style="color: black;">区别</span>的三元组采样策略对EdgeVL性能的影响。表6展示了在EuroSAT数据集上,<span style="color: black;">运用</span>半硬采样策略的EdgeVL(DAT-T)模型的准确率高于硬采样策略,这与文献的<span style="color: black;">发掘</span>一致。</p><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;">表 6: <span style="color: black;">区别</span>三元组采样策略对EdgeVL性能的影响。展示了半硬采样与硬采样策略在构建有效学习样本时的区别。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">两<span style="color: black;">周期</span>训练的影响</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">EdgeVL采用了两<span style="color: black;">周期</span>训练过程。作者<span style="color: black;">亦</span>探索了单<span style="color: black;">周期</span>训练<span style="color: black;">做为</span>替代<span style="color: black;">方法</span>,即在模型量化过程中<span style="color: black;">运用</span>PTQ代替QAT,以防止模型在训练中崩溃。表7展示了<span style="color: black;">区别</span>训练策略对EdgeVL(DAT-T)在ScanNet数据集上的准确率的影响。结果<span style="color: black;">显示</span>,单<span style="color: black;">周期</span>训练的准确率远<span style="color: black;">小于</span>两<span style="color: black;">周期</span>训练,这可能是<span style="color: black;">由于</span>对比学习需要一个良好组织的特征空间<span style="color: black;">做为</span>起点,<span style="color: black;">况且</span>QAT训练需要较小的学习率以防止模型崩溃,而在作者的知识蒸馏训练中,相对<span style="color: black;">很强</span>的学习率<span style="color: black;">一样</span>有效。</p><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;">表 7: 两<span style="color: black;">周期</span>与单<span style="color: black;">周期</span>训练策略对EdgeVL性能的影响。展示了在ScanNet数据集上,两<span style="color: black;">周期</span>训练相较于单<span style="color: black;">周期</span>训练带来的准确性<span style="color: black;">提高</span>。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">4.4 跨数据集性能</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者进一步<span style="color: black;">评定</span>了EdgeVL在未见过的数据集上的泛化性能,即在ScanNet上训练模型,并在SUNRGBD和NYU2数据集上<span style="color: black;">评定</span>其开放词汇<span style="color: black;">归类</span>准确率。SUNRGBD数据集<span style="color: black;">包括</span>5285个训练和5050个测试RGBD图像,涵盖19个场景类别,由多种RGBD传感器<span style="color: black;">捕捉</span>。NYU2数据集<span style="color: black;">包括</span>795个训练和654个测试RGBD图像,涵盖10个场景类别,由Microsoft Kinect传感器<span style="color: black;">捕捉</span>。表8<span style="color: black;">表示</span>,EdgeVL<span style="color: black;">加强</span>的编码器<span style="color: black;">明显</span><span style="color: black;">加强</span>了深度图像的准确率(<span style="color: black;">运用</span>DAT-T模型<span style="color: black;">加强</span>了25.4%),但与预训练的CLIP模型的ViT-G编码器相比,RGB图像的准确率略有下降。这是<span style="color: black;">因为</span>量化后模型尺寸大幅减小(例如,Swin-T的56MB对比CLIP-G的5213MB),<span style="color: black;">况且</span>CLIP的训练<span style="color: black;">运用</span>了4亿图像-文本对,而EdgeVL仅<span style="color: black;">运用</span>了ScanNet中的4725对RGB和深度图像。</p><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;">表 8: EdgeVL在未见过的SUNRGBD和NYU2数据集上的<span style="color: black;">归类</span>准确率。<span style="color: black;">评定</span>了模型在新场景下的泛化能力,以及量化后对RGB图像<span style="color: black;">归类</span>准确率的潜在影响。| ©【计算机视觉life】编译<h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">5 结论</span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">EdgeVL在利用预训练的视觉-语言模型进行跨多种图像模态的开放词汇<span style="color: black;">归类</span>方面取得了<span style="color: black;">明显</span><span style="color: black;">发展</span>,<span style="color: black;">包含</span>RGB和非RGB图像。尽管EdgeVL采取了创新的<span style="color: black;">办法</span>,但在适应跨模态<span style="color: black;">运用</span>时,它在保持RGB图像的泛化性能方面面临挑战。<span style="color: black;">将来</span>的工作将集中于改进适配技术以克服这一限制,旨在<span style="color: black;">加强</span>框架在更广泛应用中的多功能性和有效性。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">举荐</span>教程</span></p><a style="color: black;"><span style="color: black;">SLAM顶会论文怎么发?</span></a><a style="color: black;"><span style="color: black;">我对Fast-LIO2做了改进,<span style="color: black;">处理</span>了Z轴漂移、有效检测回环及<span style="color: black;">处理</span></span></a>了回环重影、实现了重定位
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;"><span style="color: black;">2025秋招,上来就问3D Gaussian Splatting。。。</span></a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;">香港大学开源的这个激光雷达惯性SLAM,太强了!</a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;">一招<span style="color: black;">把握</span>3DGS<span style="color: black;">基本</span>视觉三维重建!深度计算+点云处理+网格重建优化+纹理贴图!</a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;"><span style="color: black;">谷歌这个SLAM开源<span style="color: black;">方法</span>,造福了<span style="color: black;">全部</span><span style="color: black;">设备</span>人行业!</span></a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;">重大变革!NeRF和3D高斯喷溅</a><span style="color: black;">怎样</span>重塑SLAM?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><a style="color: black;">发顶会顶刊<span style="color: black;">再也不</span>难!多传感器融合SLAM、生成式AI、3DGS、NeRF、标定等方向</a></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;">这个开源框架,造福了无数卫星定位<span style="color: black;">科研</span>者和初创<span style="color: black;">机构</span>!</a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><a style="color: black;">BOSS:用了<span style="color: black;">设备</span>人仿真,立省几十万</a></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;">自动驾驶中的GNSS、RTK到底多重要?</a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;"><span style="color: black;">太强了!世界<span style="color: black;">第1</span>款开源的自动驾驶一体化框架Autoware!(附交流群)</span></a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;"><span style="color: black;">如</span></a>何从零<span style="color: black;">起始</span>搭一套自己的SLAM系统?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;"><span style="color: black;">17讲<span style="color: black;">所有</span>上线!全网首个详解深度学习特征开源算法SuperPoint和SuperGlue(附交流群)</span></a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><a style="color: black;"><span style="color: black;">最炸裂的<span style="color: black;">设备</span>人AI技术教程都在这了!</span></a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="data:image/svg+xml,%3C%3Fxml version=1.0 encoding=UTF-8%3F%3E%3Csvg width=1px height=1px viewBox=0 0 1 1 version=1.1 xmlns=http://www.w3.org/2000/svg xmlns:xlink=http://www.w3.org/1999/xlink%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=none stroke-width=1 fill=none fill-rule=evenodd fill-opacity=0%3E%3Cg transform=translate(-249.000000, -126.000000) fill=%23FFFFFF%3E%3Crect x=249 y=126 width=1 height=1%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E" style="width: 50%; margin-bottom: 20px;"></p>




nykek5i 发表于 2024-10-16 10:39:51

可以发布外链的网站 http://www.fok120.com/

b1gc8v 发表于 2024-10-27 21:02:17

你的见解真是独到,让我受益匪浅。

nqkk58 发表于 2024-11-7 02:57:14

软文发布论坛开幕式圆满成功。 http://www.fok120.com

nykek5i 发表于 2024-11-8 23:16:28

百度seo优化论坛 http://www.fok120.com/
页: [1]
查看完整版本: 伦敦大学学院、思科、爱丁堡大学开源EdgeVL!面向边缘设备的自适应视觉-语言大模型