23 注意力机制—BERT
目录
- BERT 预训练
- NLP 里的迁移学习
- BERT
- BERT动机
BERT 预训练
NLP 里的迁移学习
-
在计算机视觉中比较流行,将 ImageNet 或者更大的数据集上预训练好的模型应用到其他任务中,比如小数据的预测、图片分类或者是目标检测
-
使用预训练好的模型(例如 word2vec 或语言模型)来抽取词、句子的特征
-
做迁移学习的时候,一般不更新预训练好的模型
-
在更换任务之后,还是需要构建新的网络来抓取新任务需要的信息
- 使用预训练好的模型来抽取特征的时候,一般得到的是一些比较底层的特征,很多时候只是当成一个 embedding 层来使用,还是需要设计一个比较复杂的模型
- word2vec 忽略了时序信息
- 语言模型只看一个方向,而且训练的模型不是很大(RNN 处理不了很长的序列,因为它只能看到很短的一部分)
BERT
- BERT 是芝麻街中一个人物的名字,芝麻街是美国一个针对小朋友启蒙的节目
- BERT 结合了 ELMo 对上下文进行双向编码以及 GPT 任务无关这两方面的优点,对上下文进行双向编码,并且对于大多数的自然语言处理任务只需要最少的架构改变
- 通过将整个序列作为输入,ELMo 是为输入序列中的每一个单词分配一个表示的函数(ELMo 将来自预训练的双向长短期记忆网络的所有中间层表示组合为输出表示,ELMo 的表示将作为附加特征添加到下游任务的现有监督模型中)
- 在加入 ELMo 表示之后,冻结了预训练的双向 LSTM 模型中的所有权
