神经网络模型的有效训练与推理
引言
随着深度学习技术的发展,神经网络模型性能持续取得新突破。然而,模型的性能增长基于更加多的训练数据和更大的模型尺寸,引起现代神经网络模型的训练与推理开销持续增多。怎样在保准性能的前提下减小模型尺寸,降低模型训练时的数据需要,是实现有效模型训练与推理,推动基于神经网络模型的应用更广泛安排的基本。
本组针对以上问题,进行了以下两个方面的工作:第1,针对模型参数量大的问题,提出了适用于任意架构的知识蒸馏办法实现模型压缩;第二,针对训练数据需要高的问题,提出了针对自回归视觉大模型的数据有效训练办法。
工作一:异构模型的知识蒸馏办法
自知识蒸馏办法(Knowledge Distillation, KD)在2014年被首次提出败兴,已被证明是一种经过师生训练方法(Teacher-Student Training Scheme)加强模型性能的有效办法,并被广泛应用于模型压缩行业。在更强大教师模型辅助监督信息的帮忙下,学生模型常常能够实现比直接训练更高的精度。
然而,现有的知识蒸馏相关科研只思虑了同架构模型的蒸馏办法,而忽略了教师模型与学生模型异构的情形。例如,最先进的MLP模型在ImageNet上仅能达到83%的精度,没法获取精度更高的同架构教师模型以运用知识蒸馏办法进一步加强MLP模型的精度。因此呢,对异构模型知识蒸馏的科研拥有实质应用道理。
本工作分析了针对异构模型(CNN,ViT,MLP)特征的差异性,指出特征中模型架构关联的信息会阻碍知识蒸馏的过程。
基于此观察,本工作提出了名为OFAKD异构模型知识蒸馏办法:该办法将特征映射到架构无关的统一空间进行异构模型蒸馏,并运用一种能够自适应加强目的类别信息的损失函数。在CIFAR-100和ImageNet数据集上,该办法实现了对现有同架构知识蒸馏办法的超越。
图1. 异构模型学习到的特征对比
相比于仅运用logits的蒸馏办法,同步运用模型中间层特征进行蒸馏的办法一般能取得更好的性能。然而在异构模型的状况下,因为区别架构模型对特征的区别学习偏好,它们的中间层特征常常拥有很强的差异,直接将针对同架构模型触及的蒸馏办法迁移到异构模型会引起性能下降。
图2. 异构模型的知识蒸馏办法
为了在异构模型蒸馏过程中利用中间层特征,需要排除特征中模型架构关联信息的干扰,仅保存任务关联信息。基于此,科研者们提出经过将学生模型的中间层特征映射到logits空间,实现对模型架构关联信息的过滤。
另外,经过在原始基于KL散度(Kullback-Leibler Divergence)的蒸馏损失函数中引入一项额外的调节系数,修正后的损失函数能够实现对目的类别信息的自适应加强,进一步减缓异构模型蒸馏时无关信息的干扰。
图3. 在ImageNet上的异构模型蒸馏结果
关联论文:Zhiwei Hao, Jianyuan Guo, Kai Han, Yehui Tang, Han Hu, Yunhe Wang, and Chang Xu. "One-for-all: Bridge the gap between heterogeneous architectures in knowledge distillation." Advances in Neural Information Processing Systems 2023.
工作二:数据有效的自回归视觉模型训练
本文提出了一种仅在序列化的视觉数据上训练,不运用文本数据,且数据有效的大视觉模型,属于大视觉模型的行列。这类模型的特点是训练好之后,无需微调,就可迁移到多种区别的下游任务上面。
当前的表率性工作便是大视觉模型(Large Visual Model, LVM)。LVM 依赖很强的模型尺寸(一般 3B 以上),以及很强的训练数据(约 400B tokens)。
本文提出数据有效的大视觉模型 (Data Efficient Large Visual Model, DeLVM),是一种数据有效的自回归的视觉模型。DeLVM 相比于 LVM 的特点是明显减少了对模型尺寸和所需的训练数据的需要,从而为通用视觉模型进一步减少了阻碍。
图4. 运用数据加强扩充数据与引入新数据效果相当
在计算机视觉行业丰富的任务格式为视觉行业通用模型的设计带来了巨大挑战。区别任务的数据集尺寸存在不平衡现象:有些任务的数据量很强,而另有些任务的数据量则不足。当区别任务的数据分布不均匀时,模型的整体性能会大大受损。
针对此问题,本工作科研了针对 LVM 的数据加强策略,尤其是在跨区别任务的长尾分布场景。证明了与 Re-Sampling 相比,简单的数据加强就能取得可观的效果。
图5. 知识蒸馏促进小尺寸模型性能提高
针对自回归视觉模型参数量庞大的问题,本工作运用知识蒸馏办法设计更小的 LVM,使得验证集损眼瞎显降低,困惑度降低,精度提高。这说明知识蒸馏能够提高尺寸较小的自回归 LVM 模型的性能,弥合其与大模型之间的差距。
关联论文:Zhiwei Hao, Jianyuan Guo, Chengcheng Wang, Yehui Tang, Han Wu, Han Hu, Kai Han, and Chang Xu. "Data-efficient Large Vision Models through Sequential Autoregression." International Conference on Machine Learning 2024.
总结
针对神经网络模型训练与推理过程设计相应的加速办法,降低模型对海量训练数据的依赖,提高模型推理效率,能够明显降低深度学习技术的应用门槛,推动关联技术的更广泛应用。
导师介绍
导师介绍:胡晗,北京理工大学信息与电子学院教授,“社会治理智联网技术”工业和信息化部重点实验室副专家。入选中组部高层次人才计划青年项目。2007年和2012年分别于中国科学技术大学得到学士和博士学位,2012-2018年在新加坡国立大学和南洋理工大学从事博士后科研。重点从事边缘智能、空天网络等方向的科研,主持国家重点开发计划、基金委联合基金重点项目等多个国家级项目,在IEEE/ACM期刊和CCF-A类会议发布论文100余篇。(曾)担任IEEE TMM、IEEE Networking Letters、Ad Hoc Networks等多个期刊的编委,得到IEEE TMM 2023、IEEE TCSVT 2019、IEEE MM 2015最佳论文奖,多次得到国际会议最佳论文奖。
供稿:胡晗
编辑:施晓鑫
审核:易静
|