《YOLOv11 实战：从入门到深度优化》013、模型轻量化技术（三）：知识蒸馏与更小模型设计

张开发

• 2026/5/28 5:44:54 • 15 分钟阅读

分享文章

《YOLOv11 实战：从入门到深度优化》013、模型轻量化技术（三）：知识蒸馏与更小模型设计

013、模型轻量化技术三知识蒸馏与更小模型设计一、从一次深夜调试说起上周三凌晨两点我盯着 Jetson Nano 上跑着的 YOLOv8n 模型推理帧率卡在 18 FPS 死活上不去。项目要求是 30 FPS内存还不能超 1GB。尝试了剪枝和量化精度掉得厉害mAP 从 0.68 直接掉到 0.59产品经理已经在群里发“”了。这时候我想起去年在边缘设备上用过的一个骚操作用大模型教小模型。没错就是知识蒸馏。当时把一个 40MB 的模型压到 8MB精度只损失 2 个百分点。今天我们就来拆解这个技术看看怎么在 YOLO 系列里玩出花来。二、知识蒸馏到底在蒸馏什么很多人以为知识蒸馏就是让大模型的输出标签去教小模型。太浅了。如果只是学标签那和直接拿标注数据训练有什么区别核心其实在于学大模型的“思考过程”。举个例子一张图里有狗和草地大模型不仅输出“狗”这个类别它的中间层特征对草地的纹理、狗的毛发细节都有丰富的响应。这些响应分布他们叫 logits里藏着模型对相似性、边界、纹理的理解。小模型要学的就是这个“响应模式”。# 一个典型的蒸馏损失函数这里简化了实际还要考虑温度系数defdistillation_loss(student_output,teacher_output,labels,alpha0.5):# 硬标签损失就是普通的交叉熵hard_lossF.cross_entropy(student_output,labels)# 软标签损失让学生模型的输出分布去逼近老师模型的输出分布soft_lossF.kl_div(F.log_softmax(student_output/T,dim1),F.softmax(teacher_output/T,dim1),reductionbatchmean)*(T*T)# 这个缩放是为了梯度量纲一致别问为什么抄就行# 加权混合alpha 一般设 0.3~0.7我习惯从 0.5 开始调total_lossalpha*soft_loss(1-alpha)*hard_lossreturntotal_loss注意看那个温度系数 T。这是蒸馏的精髓T 越大输出分布越平滑小模型能学到更多“类别间的关系信息”。比如“狗”和“狼”的相似性比“狗”和“汽车”高。这个信息标注数据里可没有。三、YOLO 蒸馏的坑我帮你踩过了直接拿分类网络的蒸馏套路套 YOLO大概率会崩。YOLO 是密集预测每个格子都要判断有没有物体、是什么物体、框在哪。这里有几个实战要点1. 别只蒸馏输出头很多人只蒸馏最后的分类头和回归头效果有限。中间层的特征图也得蒸馏。特别是 Neck 部分FPN/PANet输出的多尺度特征这些特征里包含了不同尺度物体的上下文信息。# 特征图对齐蒸馏这里踩过坑deffeature_distill(student_feat,teacher_feat):# 学生和老师的特征图尺寸可能不一样得先对齐ifstudent_feat.shape!teacher_feat.shape:# 用 1x1 卷积调整通道数别用全连接内存炸adapt_convnn.Conv2d(student_feat.shape[1],teacher_feat.shape[1],1)student_featadapt_conv(student_feat)# 尺寸不对就插值建议用双线性student_featF.interpolate(student_feat,teacher_feat.shape[2:],modebilinear)# 用 MSE 或余弦相似度都行我习惯用 Huber Loss对异常值更稳lossF.huber_loss(student_feat,teacher_feat)returnloss2. 教师模型不是越大越好曾经试过用 YOLOv8x 教 YOLOv8n结果小模型学不动。差距太大就像让高中生学博士生课程。建议教师比学生大 1-2 个级别就够了比如用 YOLOv8s 教 YOLOv8n或者用 YOLOv8m 教 YOLOv8s。3. 蒸馏阶段要分步一上来就混合硬标签和软标签损失容易训飞。我的经验第一阶段只训输出头1-2 个 epoch让小模型先学会基本的检测能力。第二阶段加入特征图蒸馏权重从 0.1 慢慢加到 0.5。第三阶段全量蒸馏包括分类、回归、特征图这时候可以调高温度系数 T从 3.0 到 10.0 试试。四、设计更小模型的几个野路子如果现成的小模型还是不够快就得自己改了。但别乱改下面这些是我在项目里验证过的1. 通道裁剪的黄金比例YOLO 的 Backbone 通常是 [64, 128, 256, 512, 1024] 这种翻倍通道。压缩时别均匀砍早期层少砍后期层多砍。比如改成 [48, 96, 192, 384, 768]保持大概 0.75 的缩放系数。早期层对低级特征边缘、纹理敏感通道太少直接废掉。2. 替换昂贵的算子把标准卷积换成深度可分离卷积Depthwise Separable Conv。这个在 MobileNet 里验证过了但注意在小模型上可能掉点厉害建议只替换 Backbone 的后三层。把 CSP 模块里的标准卷积换成 GhostConv华为提出的参数能降 40%推理速度提升 20%精度损失 1% 以内。3. 砍 Neck 的冗余连接YOLOv8 的 PANet 结构有大量跨层连接。实测在 640x640 输入下有些连接贡献很小。可以尝试移除最浅层和最深层之间的直接跳跃连接只保留相邻层连接。这样能省下不少内存带宽对嵌入式设备友好。# 一个简化版的 Neck 模块示例classSimplifiedPANet(nn.Module):def__init__(self,channels):super().__init__()# 只保留相邻层的上采样/下采样连接去掉跨层self.up_convnn.Conv2d(channels[2],channels[1],1)self.down_convnn.Conv2d(channels[1],channels[2],3,stride2,padding1)# 这里可以进一步替换为深度可分离卷积defforward(self,feats):# feats: [浅层, 中层, 深层]# 原来的复杂连接简化为两步融合mid_to_lowself.up_conv(feats[1])low_fusedfeats[0]mid_to_low low_to_midself.down_conv(low_fused)mid_fusedfeats[1]low_to_midreturn[low_fused,mid_fused,feats[2]]# 深层保持不变五、蒸馏与剪枝的混合打法这是高阶玩法适合追求极致的场景先训练一个中等尺寸的教师模型比如 YOLOv8s。用教师模型蒸馏一个小模型比如自定义的 Tiny 结构。对蒸馏后的小模型做稀疏训练在损失函数里加 L1 正则。剪掉稀疏训练中权重接近 0 的通道。再微调一轮用教师模型继续蒸馏补偿精度损失。这样得到的模型比直接剪枝大模型再微调通常精度高 2-3 个百分点。原理是蒸馏让小模型有了更好的初始化剪枝后恢复能力更强。六、一些血泪经验蒸馏时数据增强要收敛别用太强的增强比如 Mosaic、MixUp教师模型都可能预测不准学生更学不会。后期可以慢慢加回来。温度系数 T 不是越大越好T 太大会让分布过于平滑学生连“狗是狗”都学不会。从 3.0 开始每 10 个 epoch 加 1.0观察验证集精度变化。小模型设计时注意内存对齐很多嵌入式芯片如 ARM Cortex-A对 4/8 字节对齐敏感通道数尽量设为 8 的倍数避免内存访问拖慢速度。验证时看实际延迟别光看参数量参数量少 50% 可能延迟只降 10%因为内存访问模式变了。一定要在目标设备上测速。最后说两句模型轻量化到最后其实是在算力、精度、工程复杂度之间做三角平衡。知识蒸馏是拿训练时间换推理性能小模型设计是拿结构风险换速度提升。没有银弹只有适合场景的权衡。我的习惯是先试现有小模型蒸馏不够再动结构。改结构时每次只改一个地方测一次速度精度。别一次性全改了出了问题都不知道是哪步的锅。边缘端部署有时候少 1% 的精度换 30% 的速度提升产品上更能接受。毕竟用户感知到的是卡不卡不是 mAP 小数点后第二位。但这话别让算法老板听见。