当前位置：首页 > news >正文

Transformer 模型中的 Position Embedding 实现

news 2025/7/19 1:25:31

Transformer 模型是近年来自然语言处理 (NLP) 领域最为重要的架构之一。其在众多任务上表现出色，改变了许多机器学习领域的做法。在 Transformer 中，Position Embedding（位置编码）是至关重要的部分。它帮助模型理解序列中单词的位置信息，因为 Transformer 本身没有明显的序列信息。本文将详细介绍 Position Embedding 的理论基础、实现方法，并提供实际的操作案例，确保读者能够了解其在 Transformer 模型中的实际应用。

2. 理论基础

2.1 Transformer 模型概述

Transformer 模型由 Vaswani 等人在2017年提出，旨在解决序列到序列的任务。其核心架构包括 Encoder 和 Decoder 两部分。Encoder 处理输入序列，而 Decoder 生成输出序列。Transformer 模型的注意力机制尤其出众，允许模型关注序列中的不同部分。

2.2 Position Embedding 的重要性

在传统的 RNN 模型中，序列中的位置信息是自然体现的。相较之下，Transformer采用并行处理输入序列，因此无法直接利用单词在序列中位置的信息。为了解决这一问题，引入了 Position Embedding。它对每个输入单词添加位置信息，使得模型能够理解单词的顺序。

3. Position Embedding 的实现

3.1 位置编码的两种形式

Position Embedding 主要有两种常见的实现方式：

可学习的位置嵌入：这种方法将每个位置的编码视为可学习的参数，与词向量一起学习。通常，它的维度与词向量相同。
三角函数位置编码：这是 Transformer 原论文中提出的方法。它通过正弦和余弦函数根据位置生成编码，公式如下：

[ PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right) ]

[ PE_{(pos, 2i + 1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right) ]

其中 ( pos ) 是位置，( i ) 是维度，( d_{model} ) 是嵌入的维度。

3.2 代码实现

我们将用 Python 和 PyTorch 实现这两种 Position Embedding 方法，包括可学习的位置嵌入和三角函数位置编码。

3.2.1 可学习的位置嵌入

import torch
import torch.nn as nnclass LearnablePositionEmbedding(nn.Module):
def __init__(self, max_len, d_model):
super(LearnablePositionEmbedding, self).__init__()
self.position_embeddings = nn.Embedding(max_len, d_model)def forward(self, x):
# x: (batch_size, seq_length)
seq_length = x.size(1)
positions = torch.arange(0, seq_length, dtype=torch.long).unsqueeze(0).expand_as(x) # (1, seq_length)
position_embeds = self.position_embeddings(positions)
return position_embeds

3.2.2 三角函数位置编码

import numpy as npclass SinusoidalPositionEmbedding(nn.Module):
def __init__(self, max_len, d_model):
super(SinusoidalPositionEmbedding, self).__init__()
self.encoding = self.create_positional_encoding(max_len, d_model)def create_positional_encoding(self, max_len, d_model):
position = np.arange(max_len)[:, np.newaxis] # shape (max_len, 1)
div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model)) # shape (d_model/2,)pos_enc = np.zeros((max_len, d_model))
pos_enc[:, 0::2] = np.sin(position * div_term) # Even indices
pos_enc[:, 1::2] = np.cos(position * div_term) # Odd indicesreturn torch.tensor(pos_enc, dtype=torch.float32)def forward(self, x):
return self.encoding[:x.size(1), :]

4. 实际操作案例

4.1 准备数据集

为了演示 Position Embedding 的实际使用，我们将使用简单的文本数据集。创建一个基本的英文句子数据集供模型训练和测试。

# 创建一个简单的数据集
sentences = [
"I love natural language processing",
"Transformers are amazing",
"Deep Learning is the future",
"Hello world"
]

4.2 自定义模型

接下来，我们构建一个简单的 Transformer Encoder 模型，使用三角函数位置编码方法。

class TransformerEncoder(nn.Module):
def __init__(self, max_len, d_model):
super(TransformerEncoder, self).__init__()
self.position_embedding = SinusoidalPositionEmbedding(max_len, d_model)
self.token_embedding = nn.Embedding(100, d_model) # 假设词汇表大小为100
self.layer_norm = nn.LayerNorm(d_model)def forward(self, x):
token_embeds = self.token_embedding(x) # (batch_size, seq_length, d_model)
position_embeds = self.position_embedding(x)
embeddings = token_embeds + position_embeds.unsqueeze(0) # (batch_size, seq_length, d_model)
return self.layer_norm(embeddings)

4.3 训练模型

我们将创建一个简单的训练循环，以训练模型。由于我们没有明确的标签，这里仅演示模型的前向传播过程。

# 数据集示例
batch_size = 2
max_len = 5 # 句子最大长度
d_model = 16 # 嵌入维度# 构造输入数据
input_data = torch.randint(0, 100, (batch_size, max_len)) # 随机生成的词索引# 创建模型
model = TransformerEncoder(max_len, d_model)# 模型前向传播
output = model(input_data)
print("Output shape:", output.shape) # 应为 (batch_size, seq_length, d_model)