模型压缩之知识蒸馏
一、知识蒸馏功能
除了前面笔记中的剪枝,知识蒸馏也是模型压缩一个重要方法之一,并且该方式是把一个复杂的大模型上学习到的知识迁移到另一个更适合部署的小模型上,在保证精度不下降的同时,实现模型压缩。
二、知识蒸馏的类型
注意:
在深度学习中,两幅图像的交叉熵越大表示:
-
两个概率分布之间的差异越大。交叉熵是用来衡量两个概率分布之间的差异程度的指标。当两个分布越不相同时,交叉熵也就越大。
-
模型预测的结果和真实标签之间的差距越大。交叉熵常用作训练神经网络的损失函数,用来衡量模型预测输出与真实标签之间的差距。当预测结果与实际标签差异较大时,交叉熵也会比较大。
-
模型学习效果较差。交叉熵越大意味着模型难以拟合训练数据,无法很好地学习到数据的潜在规律。这可能是由于模型结构、超参数设置等问题导致的。
因此,在深度学习中,我们通常希望最小化模型在训练集上的交叉熵损失,从而提高模型的学习效果和预测性能。减小交叉熵是深度学习模型优化的一个重要目标。