当前位置：首页 > news >正文

23 注意力机制—BERT

news 2026/2/16 22:41:30

目录

- BERT 预训练
- - NLP 里的迁移学习
  - BERT
  - BERT动机

BERT 预训练

NLP 里的迁移学习

在计算机视觉中比较流行，将 ImageNet 或者更大的数据集上预训练好的模型应用到其他任务中，比如小数据的预测、图片分类或者是目标检测
使用预训练好的模型（例如 word2vec 或语言模型）来抽取词、句子的特征
做迁移学习的时候，一般不更新预训练好的模型
在更换任务之后，还是需要构建新的网络来抓取新任务需要的信息
- 使用预训练好的模型来抽取特征的时候，一般得到的是一些比较底层的特征，很多时候只是当成一个 embedding 层来使用，还是需要设计一个比较复杂的模型
- word2vec 忽略了时序信息
- 语言模型只看一个方向，而且训练的模型不是很大（RNN 处理不了很长的序列，因为它只能看到很短的一部分）

BERT

BERT 是芝麻街中一个人物的名字，芝麻街是美国一个针对小朋友启蒙的节目
BERT 结合了 ELMo 对上下文进行双向编码以及 GPT 任务无关这两方面的优点，对上下文进行双向编码，并且对于大多数的自然语言处理任务只需要最少的架构改变
- 通过将整个序列作为输入，ELMo 是为输入序列中的每一个单词分配一个表示的函数（ELMo 将来自预训练的双向长短期记忆网络的所有中间层表示组合为输出表示，ELMo 的表示将作为附加特征添加到下游任务的现有监督模型中）
- 在加入 ELMo 表示之后，冻结了预训练的双向 LSTM 模型中的所有权

http://www.mrgr.cn/news/1438.html

相关文章：

开源一款H5自适应留言表白墙php源码下载

【杂乱笔记】Kmp字符串匹配算法

BF算法，KMP算法

微服务中的Sidecar模式

修改 ASP.NET Core 应用程序运行后的默认端口

WebRTC音视频开发读书笔记（六）

【信息学奥赛一本通】2068：【例2.6】鸡兔同笼

基于BlockingQueue的生产者消费者模型

c语言编程有什么难点

22 注意力机制—Transformer

Android回声消除

ELK整合实战，filebeat和logstash采集SpringBoot项目日志发送至ES

eNSP 华为交换机链路聚合

书籍推荐：凤凰架构

Java高效写入大量数据到Excel文件——使用Apache POI的SXSSFWorkbook

PHP 表单 - 必需字段

webpack打包构建和项目部署流程

yolov8旋转框+关键点检测

mysql 存储过程 until_MySQL存储过程中的3种循环