当前位置: 首页 > news >正文

encoder和decoder结构

1. 编码器(Encoder):

  • 编码器处理输入数据(例如,句子中的词序列),并将其压缩成一个固定大小的上下文向量或一系列上下文向量。
  • 这一部分通常由多层递归神经网络(RNNs)、长短期记忆网络(LSTMs)、门控循环单元(GRUs)或最近的Transformer网络组成。
  • 编码器逐步读取输入序列,并在每一步更新其隐藏状态。最终的隐藏状态或一系列隐藏状态就包含了输入序列的信息。

2. 上下文向量(Context Vector):

  • 上下文向量是输入序列的压缩表示。在传统的编码器-解码器模型中,这是一个单一的向量,但在更先进的模型如基于注意力机制的模型中,它可以是一系列向量。
  • 该向量作为输入数据的摘要,解码器将使用它来生成输出。

3. 解码器(Decoder):

  • 解码器接收编码器生成的上下文向量(或多个向量),逐步生成输出序列。
  • 与编码器类似,解码器可以由RNNs、LSTMs、GRUs或Transformers组成。
  • 解码器在生成输出序列的每一个标记时,会参考上下文向量和已生成的标记。
  • 在机器翻译等任务中,解码器一次预测一个词,并将其输出反馈给自身,以预测下一个词。

注意力机制(Attention Mechanism)(可选但常用):

  • 在许多现代的编码器-解码器架构中,使用注意力机制使解码器在生成每个输出标记时可以关注输入序列的不同部分。
  • 通过注意力机制,解码器可以访问编码器生成的整个隐藏状态序列,并在每个解码步骤中对它们进行不同的加权。

http://www.mrgr.cn/news/8492.html

相关文章:

  • P2730 [USACO3.2] 魔板 Magic Squares
  • React 学习——useCallback
  • 【Excal】And函数
  • 【Material-UI】Radio Group中显示错误提示的实现详解
  • pytorch的优化
  • 网络udp及ipc内存共享
  • 移远5G平台交叉编译C++、OpenSSL
  • 【一起学Rust | 框架篇 | Tauri2.0框架】tauri中rust和前端的相互调用(rust调用前端)
  • 分页查询面试记录和面试详情
  • CRYPTO 2020
  • 【Hot100】LeetCode—108. 将有序数组转换为二叉搜索树
  • 命令模式基础教程:如何将请求封装成对象
  • Spring Boot(快速上手)
  • uniapp 向左滑动进入下一题,向右滑动进入上一题功能实现
  • Python实现分水岭图像分割算法
  • DHCP DNS 欺骗武器化——实用指南
  • Oracle(84)什么是SQL调优顾问(SQL Tuning Advisor)?
  • 自学网络安全的三个必经阶段(含路线图)
  • 使用PhaGCN2/vConTACT2进行病毒分类注释
  • 关于Linux中引用auto_gptq提示“CUDA extension not installed”