当前位置: 首页 > news >正文

从 Transformer 到文本生成 (From Transformer to Text Generation)

1. 回顾:编码器-解码器 (Encoder-Decoder) 结构的完整流程

在开始讲文本生成前,我们先快速回顾一下经典的 Encoder-Decoder Transformer 如何协同工作,这有助于理解后续 Decoder-only 的演变。以机器翻译为例:

  1. 编码器: 接收源语言句子(例如,"Hello world!")。通过词嵌入和位置编码,将其转换为一系列包含上下文信息的向量表示。编码器的输出是源句子的一个固定大小的表示。
  2. 解码器: 接收两个输入:
    • 已生成的目标序列前缀: 初始时通常是起始 token (例如,"<start>")。
    • 编码器的输出: 源句子的表示。
  3. 解码器使用带掩码自注意力处理已生成的前缀,确保不“偷看”未来的 token。
  4. 解码器使用交叉注意力关注编码器的输出,找出源句子的哪些部分与当前要生成的词相关。
  5. 解码器经过 FFN 和其他处理后,输出一个向量,这个向量通过最后的线性层和 Softmax 预测目标词汇表中下一个 token 的概率分布。
  6. 选择概率最高的 token 作为预测结果(或使用 Beam

http://www.mrgr.cn/news/98955.html

相关文章:

  • 3、排序算法1---按考研大纲做的
  • Model Context Protocol (MCP) 开放协议对医疗多模态数据整合的分析路径【附代码】
  • 【失败】Gnome将默认终端设置为 Kitty
  • 【从零实现高并发内存池】申请、释放内存过程联调测试 与 大于256KB内存申请全攻略
  • 2D物体检测学习
  • C++ `shared_ptr` 多线程使用
  • 深入理解C++中string的深浅拷贝
  • day1-小白学习JAVA---JDK安装和环境变量配置(mac版)
  • 认知觉醒是什么? 如何做到 ? ( 持续更新ing )
  • cpolar 内网穿透 实现公网可以访问本机
  • [编程基础] Java · 学习手册
  • MATLAB 控制系统设计与仿真 - 35
  • 下拉框select标签类型
  • 基于linux 设置无线网卡Monitor模式 sniffer抓包
  • Git-使用教程(新手向)
  • 向量数据库前沿:Faiss 向量数据库的配置与使用(文中有彩蛋)
  • 高频面试题:Android MVP/MVVM/MVI这几种架构在实际生产中,各自的优缺点和适用场景是什么
  • STM32单片机C语言
  • 《系统分析师-第三阶段—总结(一)》
  • SQL:聚合函数(Aggregate Functions)