YOLO12架构优化——引入多维协作注意力机制(MCAM)抑制背景干扰,强化多尺度与小目标检测性能
传统卷积神经网络(CNN)通过局部感受野逐层提取特征,但其固有的局限性在于缺乏动态聚焦关键区域的能力。尽管后续提出的注意力机制(如SE、CBAM等)在一定程度上增强了特征表达能力,但仍存在显著缺陷:维度割裂、信息损失和计算冗余。为应对这些挑战,本文提出了一种基于多维协作注意力机制(Multi-Dimensional Collaborative Attention Mechanism, MCAM)的改进方案,将其与YOLOv12架构相结合,以提升模型在复杂背景下的抗干扰能力和多尺度、小目标检测性能。
1. 传统注意力机制的局限性分析
- 维度割裂
多数现有注意力机制(如SENet、CBAM)独立处理通道或空间维度,忽视了跨维度关联。例如,通道注意力仅关注全局特征重要性,而空间注意力仅关注局部位置,忽略了通道与空间之间的协同作用。
- 信息损失
全局平均池化(GAP)是许多注意力