38.7fps！EdgeSAM = RepViT + SAM，移动端超强变种，已开源！

esc0rp · 发表于 2024-10-3 00:07:03

点击下方卡片，关注「AIWalker」公众号

底层视觉干货，就可获取

SAM轻量化的终点竟然是RepViT + SAM，移动端速度达到38.7fps。

针对 2023 年的计算机视觉行业来讲，「分割一切」（Segment Anything Model）是备受关注的一项科研发展。尽管SAM拥有各样优良，但速度慢是其不得不提的一个缺点，端侧基本就跑不动。科研者们亦提出了有些改进策略：将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中，或运用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。

就在今日，arXiv上同期公开两篇SAM轻量化的办法EdgeSAM、RepViT-SAM，更巧合的是两者采用了完全相同的Image Encoder模块：RepViT；两者亦都在手机端达到了超快处理速度，值得一提的是：EdgeSAM能在iphone14手机上达到38.7fps的处理速度。

https://arxiv.org/abs/2312.05760

https://github.com/THU-MIG/RepViT

在AIWalker后台回复【RepViT-SAM】就可下载原文与中文译文

该方法延续了MobileSAM的处理方式，即采用原生SAM的ViT Encoder模块对所替换的Encoder模块进行知识蒸馏。

在实现方面，RepViT-SAM引入了移动端新秀RepViT的RepViT-M2.3做为图像编码器提取图像特征；在老师模型方面，它选择了SAM-ViT-H版本进行蒸馏。在应用方面，该方法进行了多种任务适配，如Mask预测、边缘检测等。

https://arxiv.org/abs/2312.06660

https://github.com/chongzhou96/EdgeSAM

在AIWalker后台回复【EdgeSAM】就可下载原文与中文译文

相比而言，EdgeSAM办法上会显出更优异：它并非仅仅参考MobileSAM进行了Image Encoder的蒸馏，还仔细分析了区别蒸馏策略并证实：任务不可知的编码器蒸馏难以学习到SAM所具备的所有知识。

有鉴于此，作者提出：循环运用bbox与point提示词，同期对提示词编码器与Mak解码器进行蒸馏，以便于蒸馏模型能够准确的学习到提示词与Mask之间的繁杂关系。

在2080Ti上，相比原生SAM，EdgeSAM推理速度快40倍；在iPhone14上，相比MobileSAM，EdgeSAM推理速度快14倍，达到了38.7fps。

在AIWalker后台回复【EdgeSAM

】，就可下载原文；

在AIWalker后台回复【RepViT-SAM】就可下载原文。

举荐阅读

RepViT: 从ViT方向重新审视轻量级CNN移动端架构 EfficientSAM | 借助MIM机制，MetaAI让SAM更有效！FastSAM：基于CNN的SAM任务处理方法，速度提高50倍！MobileSAM | 让SAM再快一点！处理一张图像仅需10ms NanoSAM：让您在Jetson Orin上享受实时分割的卓越体验实践教程｜硬核详解SAM TensorRT模型转换

4zhvml8 · 发表于 2024-10-17 11:22:40

谷歌外贸网站优化技术。

nqkk58 · 发表于 2024-10-26 19:34:49

你字句如珍珠，我珍藏这份情。

		自动登录	找回密码
密码			立即注册