4lqedz 发表于 2024-8-31 10:13:23

一阶优化算法启发,北大林宙辰团队提出持有万有逼近性质的神经网络架构的设计办法


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">以神经网络为<span style="color: black;">基本</span>的深度学习技术<span style="color: black;">已然</span>在<span style="color: black;">许多</span>应用<span style="color: black;">行业</span>取得了有效成果。在实践中,网络架构<span style="color: black;">能够</span><span style="color: black;">明显</span>影响学习效率,一个好的神经网络架构能够融入问题的先验知识,稳定网络训练,<span style="color: black;">加强</span>计算效率。<span style="color: black;">日前</span>,经典的网络架构设计<span style="color: black;">办法</span><span style="color: black;">包含</span>人工设计、神经网络架构搜索(NAS)、以及基于优化的网络设计<span style="color: black;">办法</span> 。人工设计的网络架构如 ResNet 等;神经网络架构搜索则<span style="color: black;">经过</span>搜索或强化学习的方式在搜索空间中寻找最佳网络结构;基于优化的设计<span style="color: black;">办法</span>中的一种主流范式是算法展开(algorithm unrolling),该<span style="color: black;">办法</span><span style="color: black;">一般</span>在有显式<span style="color: black;">目的</span>函数的<span style="color: black;">状况</span>下,从优化算法的<span style="color: black;">方向</span>设计网络结构。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">然而,现有经典神经网络架构设计大多忽略了网络的万有逼近性质 —— 这是神经网络具备强大性能的关键<span style="color: black;">原因</span>之一。<span style="color: black;">因此呢</span>,这些设计<span style="color: black;">办法</span>在<span style="color: black;">必定</span>程度上失去了网络的先验性能<span style="color: black;">保证</span>。尽管两层神经网络在宽度趋于无穷的时候就已<span style="color: black;">拥有</span>万有逼近性质 ,在<span style="color: black;">实质</span>中,<span style="color: black;">咱们</span><span style="color: black;">一般</span>只能<span style="color: black;">思虑</span>有限宽的网络结构,而这方面的<span style="color: black;">暗示</span>分析的结果<span style="color: black;">非常</span>有限。<span style="color: black;">实质</span>上,无论是启发性的人工设计,还是黑箱性质的神经网络架构搜索,都很难在网络设计中<span style="color: black;">思虑</span>万有逼近性质。基于优化的神经网络设计虽然相对更具解释性,但其<span style="color: black;">一般</span>需要一个显式的<span style="color: black;">目的</span>函数,这使得设计的网络结构种类有限,限制了其应用范围。<span style="color: black;">怎样</span>系统性地设计<span style="color: black;">拥有</span>万有逼近性质的神经网络架构,仍是一个重要的问题。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为<span style="color: black;">认识</span>决这个问题,北京大学林宙辰教授团队提出了一种易于操作的基于优化算法设计<span style="color: black;">拥有</span>万有逼近性质<span style="color: black;">保证</span>的神经网络架构的<span style="color: black;">办法</span>,其<span style="color: black;">经过</span>将基于梯度的一阶优化算法的梯度项映射为<span style="color: black;">拥有</span><span style="color: black;">必定</span>性质的神经网络模块,再<span style="color: black;">按照</span><span style="color: black;">实质</span>应用问题对模块结构进行<span style="color: black;">调节</span>,就<span style="color: black;">能够</span>系统性地设计<span style="color: black;">拥有</span>万有逼近性质的神经网络架构,并且<span style="color: black;">能够</span>与现有大<span style="color: black;">都数</span>基于模块的网络设计的<span style="color: black;">办法</span>无缝结合。论文还<span style="color: black;">经过</span>分析神经网络微分方程(NODE)的逼近性质首次证明了<span style="color: black;">拥有</span><span style="color: black;">通常</span>跨层连接的神经网络的万有逼近性质,并利用提出的框架设计了 ConvNext、ViT 的变种网络,取得了超越 baseline 的结果。论文被人工智能顶刊 TPAMI 接收。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjORXSBdAeicZdE6TIVjtrOelWZia1iaHMeS9l8oNCkazBM2kXrCkHQx8whA/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">论文:Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">论文<span style="color: black;">位置</span>:https://ieeexplore.ieee.org/document/10477580</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">办法</span>简介</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">传统的基于优化的神经网络设计<span style="color: black;">办法</span><span style="color: black;">一般</span>从一个<span style="color: black;">拥有</span>显式<span style="color: black;">暗示</span>的<span style="color: black;">目的</span>函数出发,采用特定的优化算法进行求解,再将优化迭代格式映射为神经网络架构,例如著名的 LISTA-NN <span style="color: black;">便是</span>利用 LISTA 算法求解 LASSO 问题所得 ,这种<span style="color: black;">办法</span>受限于<span style="color: black;">目的</span>函数的显式表达式,可设计得到的网络结构有限。<span style="color: black;">有些</span><span style="color: black;">科研</span>者尝试<span style="color: black;">经过</span>自定义<span style="color: black;">目的</span>函数,再利用算法展开等<span style="color: black;">办法</span>设计网络结构,但<span style="color: black;">她们</span><span style="color: black;">亦</span>需要如权重绑定等与<span style="color: black;">实质</span><span style="color: black;">状况</span>可能不符的假设。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">论文提出的易于操作的网络架构设计<span style="color: black;">办法</span>从一阶优化算法的更新格式出发,将梯度或邻近点算法写成如下的更新格式:</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOftnxUicARCckr9LSKy241dZPXd3DUbo5sGQrggxIPSNEdUVIGZjqKrw/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其中<img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOIia6OmCrtcltLZNPW1WoCfTCGqdlMSzaLib3S5MKlnCYV9hqSDKGQscw/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">、</span><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOEHgyffVY00x8ib5vNS3UsD8fDV4tQiaR03spvZSYo02d6GdE0dqib9IZw/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;"><span style="color: black;">暗示</span>第 k 步更新时的(步长)系数,再将梯度项替换为神经网络中的可学习模块 T,<span style="color: black;">就可</span>得到 L 层神经网络的骨架:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjO2CV9WJCd3qUzJh27mG9LUxKdT9ibhiawzts9KVhQlB7IaQbM1eZRXUHg/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">整体<span style="color: black;">办法</span>框架见图 1。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOEEEoth0542zl3cdM75ZsILG6aycJptExFiby9VYHmAicbHeB6bprubXg/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图 1 网络设计图示</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">论文提出的<span style="color: black;">办法</span><span style="color: black;">能够</span>启发设计 ResNet、DenseNet 等经典网络,并且<span style="color: black;">处理</span>了传统基于优化设计网络架构的<span style="color: black;">办法</span>局限于特定<span style="color: black;">目的</span>函数的问题。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">模块<span style="color: black;">选择</span>与架构细节</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该<span style="color: black;">办法</span>所设计的网络模块 T 只<span style="color: black;">需求</span>有<span style="color: black;">包括</span>两层网络结构,即<img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjORZ8obXx45W9R1kyGlYQcq1ECnky4PctKm6PzuVXR9eHPrvKbWzu1Vw/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">&nbsp;<span style="color: black;">,<span style="color: black;">做为</span>其子结构,<span style="color: black;">就可</span><span style="color: black;">保准</span>所设计的网络<span style="color: black;">拥有</span>万有逼近性质,其中所表达的层的</span><span style="color: black;"><strong style="color: blue;">宽度是有限的</strong></span><span style="color: black;">(即不随逼近精度的<span style="color: black;">加强</span>而增长),<span style="color: black;">全部</span>网络的万有逼近性质不是靠加宽</span><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOtDicIcfoWhNzrauGXOBxHYbPZTWMQASwanprJZPTnmqp7Ir5O8HfwAg/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">的</span><span style="color: black;">层来<span style="color: black;">得到</span>的。</span><span style="color: black;">模块 T <span style="color: black;">能够</span>是 ResNet 中广泛运用的 pre-activation 块,<span style="color: black;">亦</span></span><span style="color: black;"><span style="color: black;">能够</span>是 Transformer 中的<span style="color: black;">重视</span>力 + 前馈层的结构。</span><span style="color: black;">T 中的激活函数<span style="color: black;">能够</span>是 ReLU、GeLU、Sigmoid 等常用激活函数。</span><span style="color: black;">还<span style="color: black;">能够</span><span style="color: black;">按照</span><span style="color: black;">详细</span>任务在中添加对应的归一化层。</span><span style="color: black;"><span style="color: black;">另一</span>,</span><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOHIWo0e2pUtUnLbiaSP3ooqKX2j5fgURsIqnI1SMLKc5oYXQZoWzpeyA/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">&nbsp;<span style="color: black;">时,设计的网络是隐式网络 ,<span style="color: black;">能够</span>用不动点迭代的<span style="color: black;">办法</span>逼近隐格式,或采用隐式微分(implicit differentiation)的<span style="color: black;">办法</span>求解梯度进行更新。</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">经过</span>等价<span style="color: black;">暗示</span>设计<span style="color: black;">更加多</span>网络</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该<span style="color: black;">办法</span>不<span style="color: black;">需求</span>同一种算法只能对应一种结构,相反,该<span style="color: black;">办法</span><span style="color: black;">能够</span>利用优化问题的等价<span style="color: black;">暗示</span>设计更多的网络架构,<span style="color: black;">表现</span>其灵活性。例如,线性化交替方向乘子法<span style="color: black;">一般</span>用于求解约束优化问题:<img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOnQTI2y2ReU97eK2RT4mSJzFDpZ5Tt68UJicytvOQF269HC8rVcDoXMg/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;"><span style="color: black;">经过</span>令</span><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOYiczVZUWwAemfSfM4foODWWH80O07JWKoNmVAh4HVcsiczPmPG0z3jMA/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">&nbsp;<span style="color: black;"><span style="color: black;">就可</span>得到一种可启发</span><span style="color: black;">网络的更新迭代格式:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOMpZDHWoIic4KPc6XE3mTXRQ83cibM63ulnps9N3xGKgvgtwyFwNDY8aA/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">其启发的网络结构可见图 2。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOrnevHdDM6dlic60vz70DmCP1gqsicToPA0E1gyrsODrPV0zkRicVM5JDA/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图 2 线性化交替方向乘子法启发的网络结构</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">启发的网络<span style="color: black;">拥有</span>万有逼近性质</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">对该<span style="color: black;">办法</span>设计的网络架构,<span style="color: black;">能够</span>证明,在模块满足此前<span style="color: black;">要求</span>以及优化算法(在<span style="color: black;">通常</span><span style="color: black;">状况</span>下)稳定、收敛的<span style="color: black;">要求</span>下,任意一阶优化算法启发的神经网络在高维连续函数空间<span style="color: black;">拥有</span>万有逼近性质,并给出了逼近速度。论文首次在有限宽度设定下证明了<span style="color: black;">拥有</span><span style="color: black;">通常</span>跨层连接的神经网络的万有逼近性质(此前<span style="color: black;">科研</span>基本集中在 FCNN 和 ResNet,见表 1),论文主定理可简略叙述如下:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">主定理(简略版):设<img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOhqJCbj6yVgmarrWG9SoCo0v1xCgibtiaicfejopYQGibbO5zFRnAtibjUbA/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">&nbsp;<span style="color: black;">A 是一个梯度型一阶优化算</span><span style="color: black;">法。</span><span style="color: black;">若算法 A <span style="color: black;">拥有</span>公式 (1) 中的更新格式,且满足收敛性<span style="color: black;">要求</span>(优化算法的常用步长<span style="color: black;">选择</span>均满足收敛性<span style="color: black;">要求</span>。</span><span style="color: black;">若在启发网络中均为可学习的,则<span style="color: black;">能够</span>不需要该<span style="color: black;">要求</span>),则由算法启发的神经网络:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOESGeZr5lYKMAv7mzymHt3Q3yYRPicVVJDHgykKLiatuQHYJNG5xlQwxw/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在连续(向量值)函数空间<img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOXDcsAywNTCryticx94U3JKPLuIge4hLPwJ9s8ibhgt9iaXcuP2PSibzUeg/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">以及范数</span><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOibZlrR0XLiaF1wBKvZbt3jOrsdVM38veuj8k32cNjWnzmJuRtgDP5ulw/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">下<span style="color: black;">拥有</span>万有逼近性质,其中可</span><span style="color: black;">学习模块 T 只要有<span style="color: black;">包括</span>两层形如</span><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOlFSjP0Ho75eatLib30QtPzZDQAQDhcQ6OqicwriapZhlLy2L5WXDLuVmw/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"><span style="color: black;">的结构(σ <span style="color: black;">能够</span>是常用的激活函数)<span style="color: black;">做为</span>其子结构都<span style="color: black;">能够</span>。</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">常用的 T 的结构如:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1)卷积网络中,pre-activation 块:BN-ReLU-Conv-BN-ReLU-Conv (z),</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2)Transformer 中:Attn (z) + MLP (z+Attn (z)).</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">主定理的证明利用了 NODE 的万有逼近性质以及线性多步<span style="color: black;">办法</span>的收敛性质,核心是证明优化算法启发设计的网络结构恰对应一种收敛的线性多步<span style="color: black;">办法</span>对连续的 NODE 的离散化,从而启发的网络 “继承” 了 NODE 的逼近能力。在证明中,论文还给出了 NODE 逼近 d 维空间连续函数的逼近速度,<span style="color: black;">处理</span>了此前论文 的一个遗留问题。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOsXG2EDYNfDZ358pCdy6zvAKAUV2mqoAtiby6m39CMeSfGxibMCvgux4w/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">表 1 此前万有逼近性质的<span style="color: black;">科研</span>基本集中在 FCNN 和 ResNet</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">实验结果</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">论文利用所提出的网络架构设计框架设计了 8 种显式网络和 3 种隐式网络(<span style="color: black;">叫作</span>为 OptDNN),网络信息见表 2,并在嵌套环分离、函数逼近和图像<span style="color: black;">归类</span>等问题上进行了实验。论文还以 ResNet, DenseNet, ConvNext 以及 ViT 为 baseline,利用所提出的<span style="color: black;">办法</span>设计了改进的 OptDNN,并在图像<span style="color: black;">归类</span>的问题上进行实验,<span style="color: black;">思虑</span>准确率和 FLOPs 两个指标。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjODJRslHEEiaVmKb8EsJ6hTibvRegOnJF3OiccnGBOS584mNk6xEDAfICLg/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">表 2 所设计网络的<span style="color: black;">相关</span>信息</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">首要</span>,OptDNN 在嵌套环分离和函数逼近两个问题上进行实验,以验证其万有逼近性质。在函数逼近问题中,分别<span style="color: black;">思虑</span>了逼近 parity function 和 Talgarsky function,前者可<span style="color: black;">暗示</span>为二<span style="color: black;">归类</span>问题,后者则是回归问题,这两个问题都是浅层网络难以逼近的问题。OptDNN 在嵌套环分离的实验结果如图 3 所示,在函数逼近的实验结果如图 3 所示,OptDNN 不仅取得了很好的分离 / 逼近结果,<span style="color: black;">况且</span>比<span style="color: black;">做为</span> baseline 的 ResNet 取得了更大的<span style="color: black;">归类</span>间隔和更小的回归误差,足以验证 OptDNN 的万有逼近性质。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOr37rDgdnd4cY0fJzmnWZFeVuicQCYcLQPYLoJ8rLcqXkvoFFZcFwjFA/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图 3 OptNN 逼近 parity function</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOoY7K3ftyvNQ2DOHxwdOjB3slIvrWqswMKTAePBfe8hkelvsoERicwUw/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">图 4 OptNN 逼近 Talgarsky function</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">而后</span>,OptDNN 分别在宽 - 浅和窄 - 深两种设定下在 CIFAR 数据集上进行了图像<span style="color: black;">归类</span>任务的实验,结果见表 3 与 4。实验均在较强的数据<span style="color: black;">加强</span>设定下进行,<span style="color: black;">能够</span>看出,<span style="color: black;">有些</span> OptDNN 在相同<span style="color: black;">乃至</span>更小的 FLOPs 开销下取得了比 ResNet 更小的错误率。论文还在 ResNet 和 DenseNet 设定下进行了实验,<span style="color: black;">亦</span>取得了类似的实验结果。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOMcg8GicLClIm3ps1iaIBI6OLOk4MIf2oYNxj50jPOYlicHcMhibzh4K68Q/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">表 3 OptDNN 在宽 - 浅设定下的实验结果</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOBFAt2wh4YVSHibR5HOwDiaxlLUomOWufQEeUB8ZTbBviaOnM3hwYonSSQ/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">表 4 OptDNN 在窄 - 深设定下的实验结果</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">论文进一步<span style="color: black;">选择</span>了此前表现较好的 OptDNN-APG2 网络,进一步在 ConvNext 和 ViT 的设定下在 ImageNet 数据集上进行了实验,OptDNN-APG2 的网络结构见图 5,实验结果表 5、6。OptDNN-APG2 取得了超过等宽 ConvNext、ViT 的准确率,进一步验证了该架构设计<span style="color: black;">办法</span>的<span style="color: black;">靠谱</span>性。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjORMnFBbWwRNbgzUh3cxsaicZoDWVCicOg2yw2FIWeO39jy634fTB7IMUQ/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图 5 OptDNN-APG2 的网络结构</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOq21Cupict1ILC7ia05VpibdTlrsjZKzPsO4mFjLodh5rkafV10E4LiayUQ/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">表 5 OptDNN-APG2 在 ImageNet 上的性能比较</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOyXj7KGNM8f79oVmddkibIe3XheNTBlQKYJohaPqECdRhV13EJibkWHDg/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">表 6 OptDNN-APG2 与等宽(isotropic)的 ConvNeXt 和 ViT 的性能比较</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">最后,论文<span style="color: black;">按照</span> Proximal Gradient Descent 和 FISTA 等算法设计了 3 个隐式网络,并在 CIFAR 数据集上和显式的 ResNet 以及<span style="color: black;">有些</span>常用的隐式网络进行了比较,实验结果见表 7。三个隐式网络均取得了与先进隐式网络相当的实验结果,<span style="color: black;">亦</span>说明了<span style="color: black;">办法</span>的灵活性。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjO6LEOD6WqycS7QaTXn5SKrQz9LYje0JT194dGrNuMuMmssiaWvSITT7A/640?wx_fmt=png&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">表 7 隐式网络的性能比较</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">总结</strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">神经网络架构设计是深度学习中的核心问题之一。论文提出了一个利用一阶优化算法设计<span style="color: black;">拥有</span>万有逼近性质<span style="color: black;">保证</span>的神经网络架构的统一框架,拓展了基于优化设计网络架构范式的<span style="color: black;">办法</span>。该<span style="color: black;">办法</span><span style="color: black;">能够</span>与现有大部分聚焦网络模块的架构设计<span style="color: black;">办法</span>相结合,<span style="color: black;">能够</span>在几乎不<span style="color: black;">增多</span>计算量的<span style="color: black;">状况</span>下设计出<span style="color: black;">有效</span>的模型。在理论方面,论文证明了收敛的优化算法诱导的网路架构在温和<span style="color: black;">要求</span>下即<span style="color: black;">拥有</span>万有逼近性质,并弥合了 NODE 和<span style="color: black;">拥有</span><span style="color: black;">通常</span>跨层连接网络的<span style="color: black;">暗示</span>能力。该<span style="color: black;">办法</span>还有望与 NAS、 SNN 架构设计等<span style="color: black;">行业</span>结合,以设计更<span style="color: black;">有效</span>的网络架构。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">参考文献</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> B. Baker, O. Gupta, N. Naik, and R. Raskar, “Designing neural network architectures using reinforcement learning,” in International Conference on Learning Representations, 2017.</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> V. Monga, Y. Li, and Y. C. Eldar, “Algorithm unrolling: Interpretable, efficient deep learning for signal and image processing,” IEEE Signal Processing Magazine, 2021.</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> K. Hornik, M. Stinchcombe, and H. White, “Multilayer feedforward networks are universal approximators,” Neural Networks, 1989.</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> K. Gregor and Y. LeCun, “Learning fast approximations of sparse coding,” in International Conference on Machine Learning, 2010.</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> S. Bai, J. Z. Kolter, and V. Koltun, “Deep equilibrium models,” in Advances in Neural Information Processing Systems, 2019.</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"> Q. Li, T. Lin, and Z. Shen, “Deep learning via dynamical systems: An approximation perspective,” Journal of the European Mathematical Society, 2022.</p><img src="https://mmbiz.qpic.cn/mmbiz_jpg/tNVx3TaaVWHxcicDTvxqhMHMALb0kSCjOrqA5mbtkmLibSftLDytbxFJDbMibFkNbSZPrGB5aSzOI9oX3GgtR7xqg/640?wx_fmt=jpeg&amp;from=appmsg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;">




听听海 发表于 2024-9-7 12:21:19

你的见解真是独到,让我受益良多。

情迷布拉格 发表于 2024-9-9 17:51:34

大势所趋,用于讽刺一些制作目的就是为了跟风玩梗,博取眼球的作品。

wrjc1hod 发表于 2024-10-25 09:10:44

你的见解真是独到,让我受益良多。
页: [1]
查看完整版本: 一阶优化算法启发,北大林宙辰团队提出持有万有逼近性质的神经网络架构的设计办法