当前位置：首页 > news >正文

ECCV‘24 | WTConv：小参数大感受野，基于小波变换的新型卷积

news 2026/2/2 18:19:17

前言近年来，人们尝试增加卷积神经网络（CNN）的卷积核大小，以模拟视觉Transformer（ViTs）自注意力模块的全局感受野。然而，这种方法很快就遇到了上限，并在实现全局感受野之前就达到了饱和。论文证明通过利用小波变换（WT），实际上可以获得非常大的感受野，而不会出现过参数化的情况。例如，对于一个的感受野，所提出方法中的可训练参数数量仅以进行对数增长。所提出的层命名为WTConv，可以作为现有架构中的替换，产生有效的多频响应，且能够优雅地随着感受野大小的变化而扩展。论文在ConvNeXt和MobileNetV2架构中展示了WTConv层在图像分类中的有效性，以及作为下游任务的主干网络，并且展示其具有其它属性，如对图像损坏的鲁棒性以及对形状相较于纹理的增强响应。

论文: Wavelet Convolutions for Large Receptive Fields

论文地址：https://arxiv.org/abs/2407.05848v2
论文代码：https://github.com/BGU-CS-VIL/WTConv

Introduction

在过去十年中，卷积神经网络（CNN）在许多计算机视觉领域占主导地位。尽管如此，随着视觉Transformer（ViTs）的出现（这是一种用于自然语言处理的Transformer架构的适应），CNN面临着激烈的竞争。具体而言，ViTs目前被认为相较于CNN具有优势的原因，主要归功于其多头自注意力层。该层促进了特征的全局混合，而卷积在结构上仅局限于特征的局部混合。因此，最近几项工作尝试弥补CNN和ViTs之间的性能差距。有研究重构了ResNet架构和其训练过程，以跟上Swin Transformer。“增强”的一个重要改进是增加卷积核的大小。然而，实证研究表明，这种方法在7*7的卷积核大小处就饱和了，这意味着进一步增加卷积核并没有帮助，甚至在某个时候开始出现性能恶化。虽然简单地将大小增加到超过并没有用，但RepLKNet的研究已经表明，通过更好的构建可以从更大的卷积核中获益。然而，即便如此，卷积核最终仍然会变得过参数化，性能在达到全局感受野之前就会饱和。

在RepLKNet分析中，一个引人入胜的特性是，使用更大的卷积核使得卷积神经网络（CNN）对形状的偏向性更强，这意味着它们捕捉图像中低频信息的能力得到了增强。这个发现有些令人惊讶，因为卷积层通常倾向于对输入中的高频部分作出响应。这与注意力头不同，后者已知对低频更加敏感，这在其他研究中得到了证实。

上述讨论引发了一个自然的问题：能否利用信号处理工具有效地增加卷积的感受野，而不至于遭受过参数化的困扰？换句话说，能否使用非常大的滤波器（例如具有全局感受野的滤波器），同时提升性能？论文提出的方法利用了小波变换（WT），这是来自时频分析的一个成熟工具，旨在有效扩大卷积的感受野，并通过级联的方式引导CNN更好地响应低频信息。论文将解决方案基于小波变换（与例如傅里叶变换不同），因为小波变换保留了一定的空间分辨率。这使得小波域中的空间操作（例如卷积）更加具有意义。

更具体地说，论文提出了WTConv，这是一个使用级联小波分解的层，并执行一组小卷积核的卷积，每个卷积专注于输入的不同频率带，并具有越来越大的感受野。这个过程能够在输入中对低频信息给予更多重视，同时仅增加少量可训练参数。实际上，对于一个k*k的感受野，可训练参数数量只随着k的增长而呈对数增长。而WTConv与常规方法的参数平方增长形成对比，能够获得有效的卷积神经网络（CNN），其有效感受野（ERF）大小前所未有，如图1所示。

WTConv作为深度可分离卷积的直接替代品，可以在任何给定的卷积神经网络（CNN）架构中直接使用，无需额外修改。通过将WTConv嵌入到ConvNeXt中进行图像分类，验证了WTConv的有效性，展示了其在基本视觉任务中的实用性。在此基础上，进一步利用ConvNeXt作为骨干网络，扩展评估到更复杂的应用中：在UperNet中进行语义分割，以及在Cascade Mask R-CNN中进行物体检测。此外，还分析了WTConv为CNN提供的额外好处。

论文的贡献总结如下：