【AI学习】Transformer 模型
1,概念
是一种基于自注意力机制(Self-Attention Mechanism)的深度学习架构,在自然语言处理、计算机视觉等多个领域都有着极为重要的应用。
2,基本结构
1)编码器(Encoder)
通常由多个相同的编码器层堆叠而成。
每个编码器层包含了多头自注意力机制、前馈神经网络(Feed-Forward Neural Network)以及一些规范化和残差连接等组件。
2)解码器(Decoder)
由多个解码器层构成。
解码器层除了包含多头自注意力机制、前馈神经网络以及规范化和残差连接外,还额外有一个用于关注编码器输出的多头注意力机制(Multi-Head Attention),其目的是在生成输出序列时能够结合编码器所处理的输入信息,使得生成的结果与输入更加契合。
3)多头自注意力机制(Multi-Head Self-Attention)
可以让模型捕捉输入序列不同位置之间的关联关系。
自注意力机制:这是 Transformer 模型的核心创新点。它能够计算输入序列中每个位置与其他所有位置之间的关联程度,通过给不同位置分配不同的权重,让模型聚焦于对当前位置更重要的信息。例如&#