当前位置: 首页 > news >正文

【文献阅读】AST: Audio Spectrogram Transformer

Abstract

在过去的十年中,CNN被广泛应用作为端到端音频分类模型的主要构建块,这些模型旨在学习从音频谱图到相应标签的直接映射。为了更好地捕捉长距离的全局上下文,最近的趋势是在 CNN 之上添加自注意力机制,从而形成 CNN-注意力混合模型。然而,目前尚不清楚依赖 CNN 是否是必要的,以及仅基于注意力的神经网络是否足以在音频分类中获得良好的性能。在本文中,我们通过引入Audio Spectrogram Transformer(AST)来回答这一问题,AST 是首个不使用卷积、完全基于注意力的音频分类模型。我们在各种音频分类基准上评估 AST,结果在 AudioSet 上取得了 0.485 的 mAP、在 ESC-50 上达到 95.6% 的准确率,以及在 Speech Commands V2 上达到 98.1% 的准确率,均创下了新的最先进结果。

Introduction

在过去的十年中,CNN被广泛用于从原始谱图中学习表征,直接将音频谱图映射到相应的标签,以进行端到端建模,因为 CNN 固有的归纳偏差(例如空间局部性和平移不变性)被认为是有帮助的。为了更好地捕捉长距离的全局上下文,最近的趋势是在 CNN 之上添加自注意力机制。然而,受到纯基于注意力模型在视觉领域成功的启发,目前的问题是 CNN 是否仍然对音频分类至关重要。

为此引入Audio Spectrogram Transformer(AST),这是一个不使用卷积、完全基于注意力的模型,能够直接应用于音频谱图,并在最低层中捕捉长距离的全局上下文。此外,还提出了一种将 Vision Transformer(ViT)从在 ImageNet 上预训练的知识转移到 AST 的方法,这可以显著提高性能。

AST 的优势有三点:

  • 在多种音频分类任务和数据集(包括 AudioSet、ESC-50 和 Speech Commands)上评估 AST,结果在这些数据集上均超越了最先进的系统。
  • AST 支持变长输入,并且可以在不改变架构的情况下应用于不同任务。相比之下,基于 CNN 的模型通常需要调整架构,以获得不同任务的最佳性能。
  • 与最先进的 CNN-注意力混合模型相比,AST 具有更简单的架构和更少的参数,并且在训练过程中收敛更快。

AST 和 ViT 的架构相似,但 ViT 仅应用于固定维度的输入(图像),而 AST 可以处理变长的音频输入。此外,本文提出了一种将在 ImageNet 上预训练的 ViT 知识转移到 AST 的方法。

Audio Spectrogram Transformer

在这里插入图片描述

首先,将 t 秒的输入音频波形转换为128维的对数梅尔滤波器组(log Mel filterbank, fbank)特征,这些特征每10毫秒(1秒有100帧)使用25毫秒的Hamming窗计算一次。这样就得到一个大小为 128×100t 的谱图,作为 AST的输入。接着,将该谱图分割成N个16×16的patch,在时间和频率维度上均有6的重叠,其中N = 12d(100t − 16)/10e 是patch的数量,也是Transformer的有效输入序列长度。我们使用线性投影层将每个16×16的patch展平为大小为768的一维patch嵌入层。我们将该线性投影层称为patch嵌入层。由于Transformer架构不能捕捉输入顺序信息,而patch序列也不按时间顺序排列,因此我们为每个patch嵌入添加一个可训练的位置嵌入(同样大小为768),以使模型能够捕捉2D音频谱图的空间结构。在序列的开头添加了一个 [CLS] token。生成的序列随后输入到Transformer中。Transformer编码器具有768的嵌入维度、12层和12个头。Transformer编码器的[CLS] token输出作为音频谱图的表征。一个带有sigmoid激活函数的线性层将音频谱图表征映射到用于分类的标签。严格来说,patch嵌入层可以被视为一个大核和大步长的单个卷积层,而Transformer块中的投影层相当于1×1卷积。然而,这种设计不同于常规的CNN,其有多个层和较小的核与步长。这些Transformer模型通常被称为“无卷积模型”,以区分它们与CNN

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/caeb208883da4148926de613c5ecd3fb.png
在这里插入图片描述
在这里插入图片描述

在[11]中,作者指出,只有当用于图像分类任务的数据量超过1400万时,Transformer才开始表现优于CNN。
在这里插入图片描述

迁移学习——(适配预训练视觉Transformer(ViT)到AST)

在这里插入图片描述

Experiment

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.mrgr.cn/news/42048.html

相关文章:

  • AI 搜索引擎工具集合
  • 五子棋双人对战项目(5)——对战模块
  • 如何做出成功让 HR 心动的个人简历-经验分享
  • 【10】纯血鸿蒙HarmonyOS NEXT星河版开发0基础学习笔记-泛型基础全解(泛型函数、泛型接口、泛型类)及参数、接口补充
  • Oracle架构之物理存储之日志文件
  • 嵌入式系统中qt开发 Qdebug输出中文的时候变成了问号 ??? bulideroot制作的根文件系统
  • 从零开始掌握YOLOv11:一文读懂损失函数的奥秘(源码+实操)
  • 谷歌网站收录查询,你会查询Google网站的收录情况吗
  • 食品饮料小程序搭建私域会员管理
  • 过滤器 Filter vs 拦截器 Interceptor
  • 蓝桥等级考试C++组17级真题-2023-05-21
  • C++(string类的实现)
  • 大师级GC调优:剖析高并发系统的垃圾回收优化实战
  • 数据结构笔记01
  • 面试官:谈谈自己对IOC和AOP的理解? Part2
  • 动手学深度学习(李沐)PyTorch 第 7 章 现代卷积神经网络
  • 关于联邦学习 每个参与者的 每次epoch结果是否需要聚合;联邦学习流程
  • 祖先重组图的推断与应用-文献精读59
  • HTML增加文本复制模块(使用户快速复制内容到剪贴板)
  • 【算法与图】通向高效解决方案的钥匙