当前位置: 首页 > news >正文

什么是BERT?工程快速入门


基本介绍

全称是Bidirectional Encoder Representations from Transformers。BERT翻译成中文通常被称为“双向编码器表征法”或简单地称为“双向变换器模型

Bidirectional:是双向神经网络,这个在学习 RNN 时候我们就了解到如何使用双向 RNN 让每一个词视野更加广阔,不但可以看到其前面词还能看到其后面的词。

Encoder:说明 BERT 是编码器。

Representations:BERT 是完成词的表征的任务的模型,之前我们已经学过了了 word2vec。

Transformer:其实 BERT 就是 transform 解码器部分,表示 BERT 结构没有采用 LSTM 这样。 RNN 结构,而是采用了 Transformer 这样结构来实现双向循环神经网,Transformer 对象 LSTM 的优势是并行计算
 

在自然语言处理领域,BERT以其出色的性能和广泛的应用而著称,为多种语言理解任务提供了强大的预训练模型基础

1)预训练阶段:BERT通过预训练任务来学习语言的深层表示。这些任务通常包括“遮蔽语言模型”(Masked Language Model,MLM)(类似于完形填空)和“下一句预测”(Next Sentence Prediction,NSP)。在MLM任务中,模型被训练来预测输入句子中被遮蔽的词;而在NSP任务中,模型需要判断两个句子是否是连续的文本序列。

2)微调阶段:预训练完成后,BERT模型可以通过添加任务特定的输出层来进行微调,以适应不同的NLP任务,如情感分析、问答、命名实体识别等。微调过程利用了预训练阶段学到的语言表征,使得模型能够快速适应新的任务并取得优异的性能。

3)模型结构BERT模型是由多层的Transformer编码器堆叠而成,每一层都包含自注意力机制(Self-Attention)和前馈神经网络。这种深层结构使得BERT能够捕捉从浅层语法特征到深层语义特征的不同级别的语言信息。

4)性能表现:BERT在多个NLP任务上取得了当时的最先进结果,显著推动了自然语言处理技术的发展。它的成功也催生了许多后续的研究工作,包括对BERT结构的改进以及在不同语言和领域中的应用。


预训练:预训练是一种迁移学习的概念。所谓预训练模型,举个例子,假设我们有大量的维基百科数据,那么我们可以用这部分巨大的数据来训练一个泛化能力很强的模型(一个知识渊博的人,见多识广),当我们需要在特定场景使用时,例如做医学命名实体识别,那么,只需要简单的修改一些输出层,再用我们自己的数据进行一个增量训练,对权重进行一个轻微的调整即可(增加行业知识后,这个知识渊博的人就是行业专家)。预训练语言模型有很多,典型的如ELMO、GPT、BERT等
 

相关资料



BERT详解:概念、原理与应用-CSDN博客


http://www.mrgr.cn/news/4350.html

相关文章:

  • 【SpringBoot】使用Spring Boot、MyBatis-Plus和MySQL来实现增删改查操作,并添加自定义SQL查询。
  • Ansible可视化管理之web界面集成使用探究(未完待续)
  • 【PHPSTORM 使用非挂起断点】
  • SpringBootWeb 篇-深入了解 SpringBoot + Vue 的前后端分离项目部署上线与 Nginx 配置文件结构
  • echo “Hello, UDP!“ | nc -u -w1 192.168.1.100 1234 里面有换行符
  • 微前端架构下的性能优化:模块化开发与服务网格的协同
  • 通过https方式访问内网IP
  • Centos安装Jenkins教程详解版(JDK8+Jenkins2.346.1)
  • 深入浅出:理解TCP传输控制协议的核心概念
  • 使用SQLite进行Python简单数据存储的线程安全解决方案
  • 【JAVA多线程】CompletableFuture原理剖析
  • 谷歌云AI新作:CROME,跨模态适配器高效多模态大语言模型
  • [godot] 采用状态机时,如何处理攻击时移动?如“冲撞”
  • 【vue3】组件通信
  • 【大模型理论篇】关于LLaMA 3.1 405B以及小模型的崛起
  • Nginx: 配置项之server_name指令用法梳理
  • 什么是零拷贝?以及数据在内存中的流动途径
  • 手撕⼆叉树——堆
  • (2024)vue2+vue3学习笔记(持续更新)
  • 【精选】基于Python大型购物商城系统(京东购物商城,淘宝购物商城,拼多多购物商城爬虫系统)