《DiffusionNER: Boundary Diffusion for Named Entity Recognition》

news/2024/5/10 16:34:28

Submitted 22 May, 2023; originally announced May 2023.

Comments: Accepted to ACL 2023, submission version

https://github.com/tricktreat/DiffusionNER
在这里插入图片描述

在这里插入图片描述

问题:

  • 命名实体识别任务中存在的噪声跨度(边界不清晰)如何处理?

解决方法:

  • 提出了 DIFFUSIONNER 方法,将命名实体识别任务建模为一个边界去噪扩散过程,从而生成清晰的命名实体。
  • 在训练过程中,DIFFUSIONNER 通过一个固定的前向扩散过程逐渐向金标准实体边界添加噪声,然后学习一个逆扩散过程来恢复实体边界。
  • 在推断过程中,DIFFUSIONNER 首先从标准高斯分布中随机抽样一些嘈杂的跨度,然后通过学习的逆扩散过程对它们进行去噪,从而生成清晰的命名实体。
  • 提出的边界去噪扩散过程允许逐步细化和动态采样实体,使 DIFFUSIONNER 具备高效灵活的实体生成能力。

这种方法的优点是可以有效处理噪声跨度,并且在实验中表现出与先前最先进模型相当甚至更好的性能。

当涉及到NER(命名实体识别)时,通常的问题之一是嘈杂的跨度,即实体的边界不清晰。这可能是由于文本中的歧义或其他因素导致的。传统的方法可能会将实体识别为包含噪声或不完整的片段,而不是完整的实体。

DIFFUSIONNER 提出了一种新的方法来解决这个问题。它将命名实体识别任务视为一个去噪扩散过程。这个过程可以类比为在文本中“扩散”实体的边界,将不清晰的边界变得更加清晰,并从中生成完整的实体。

在训练过程中,DIFFUSIONNER 逐步向实体的边界添加高斯噪声。这意味着它会在实体的边界周围加入一些随机的噪声。然后,通过一个逆扩散过程,模型会尝试逐步去除这些噪声,以便尽可能地恢复原始的、清晰的实体边界。

举个例子,假设我们有一句话:“John Smith 在 New York 的时候工作。”在这个例子中,“John Smith”和“New York”是两个命名实体。但是,由于文本中的一些歧义或不确定性,实体的边界可能不是非常清晰。DIFFUSIONNER 的训练过程会逐步在实体边界周围添加一些噪声,比如说“Joh…mith”或“Ne…k”。然后,模型会尝试通过学习的逆扩散过程去除这些噪声,以尽可能准确地恢复原始的实体边界,即“John Smith”和“New York”。

在推断阶段,模型可以从一个先验的高斯分布中抽样一些噪声跨度,并利用学到的逆扩散过程来生成完整的实体边界。

创新点

  1. DIFFUSIONNER 是首个将扩散模型应用于命名实体识别 (NER) 的方法

    • 传统上,扩散模型在其他领域(如图像处理)中被广泛应用,但在自然语言理解任务中很少被使用。
    • DIFFUSIONNER 是第一个将扩散模型应用于 NER 这种在离散文本序列上的抽取式任务的方法。
  2. 为自然语言理解任务提供了新的视角

    • 通过将扩散模型引入到 NER 任务中,DIFFUSIONNER 提供了一种全新的思路和视角,拓展了自然语言理解领域中的方法和技术。
  3. DIFFUSIONNER 将命名实体识别视为边界去噪扩散过程

    • DIFFUSIONNER 提出了一种全新的方式来解决 NER 中存在的噪声跨度问题。
    • 它将 NER 任务建模为一个边界去噪扩散过程,通过逐步的边界优化过程,在嘈杂的跨度上生成实体。
  4. DIFFUSIONNER 是一种新颖的生成式 NER 方法

    • DIFFUSIONNER 采用了一种全新的生成方式来生成命名实体,即通过在嘈杂的跨度上进行逐步的边界优化,最终生成清晰的实体。
    • 这种方法在 NER 领域中是一种创新的方法,可能带来更好的性能和效果。

总的来说,DIFFUSIONNER 提供了一种全新的思路和方法,将扩散模型引入到 NER 任务中,为自然语言理解领域带来了新的探索方向和可能性。

扩散模型

  1. 扩散模型的背景

    • 扩散模型是由Sohl-Dickstein等人在2015年提出的一种深度潜在生成模型。
    • 最近的研究表明,扩散模型在图像和音频生成领域取得了令人瞩目的成果。
  2. 扩散模型的组成

    • 扩散模型由前向扩散过程和逆向扩散过程组成。
    • 前向扩散过程通过按照固定的方差时间表逐步向数据分布添加噪声,逐渐扰动数据的分布。
    • 逆向扩散过程则学习恢复数据的结构。
  3. 在自然语言理解领域的挑战

    • 尽管扩散模型在连续状态空间(如图像或波形)中取得了成功,但在自然语言处理领域仍存在一些挑战,这是因为文本的离散性质。
  4. 扩散模型在自然语言处理领域的应用

    • Diffusion-LM通过嵌入和舍入操作将离散文本模型化为连续空间,并提出额外的分类器来对可控文本生成施加约束。
    • DiffuSeq和SeqDiffuSeq将基于扩散的文本生成扩展到更广泛的设置中,提出了基于仅编码器和编码器-解码器架构的无分类器序列到序列扩散框架。
  5. DIFFUSIONNER的贡献

    • DIFFUSIONNER旨在解决离散文本序列上的抽取式任务,即命名实体识别。

总的来说,这段文字介绍了扩散模型在自然语言理解领域的应用和相关研究,并指出了 DIFFUSIONNER 的创新之处及其在离散文本序列任务中的应用。


http://www.mrgr.cn/p/04265467

相关文章

如何通过安全数据传输平台,保护核心数据的安全传输?

在数字化的浪潮中,企业的数据安全传输显得尤为关键。随着网络攻击手段的日益复杂,传统的数据传输方式已不再安全,这就需要我们重视并采取有效的措施,通过安全数据传输平台来保护核心数据。 传统的数据传输面临的主要问题包括&…

HEX文件格式相关

Hex文件是可以烧录到MCU中,被MCU执行的一种文件格式。如果用记事本打开可发现,整个文件以行为单位,每行以冒号开头,内容全部为16进制码(以ASCII码形式显示)。Hex文件可以按照如下的方式进行拆分来分析其中的内容:例如 “:1000080080318B1E0828092820280B1D0C280D2854”可…

【React】CSS 局部样式

书写 CSS 的时候,如果 CSS 文件名包含 module,那么说明该 CSS 是一个局部 CSS 样式文件,类似于 vue 中的 scoped。 .avatarContainer {width: 40px;height: 40px;border-radius: 50%;background: rgb(213, 226, 226); }import styles from ..…

计算机存储原理.2

1.主存储器与CPU之间的连接 2.存储器芯片的输入输出信号 3.增加主存的存储字长 3.1位扩展 数据总线的利用成分是不充分的(单块只能读写一位),为了解决这个问题所以引出了位扩展。 使用多块存储芯片解决这个问题。 3.2字扩展 因为存储器买的是8k*8位的&am…

python自动化登录(测试篇)

起初是想抓取下请求看能不能做模拟登录。无奈发现,目标网站的请求数据是加密过的,而且网站代码也是编译后的代码。要从编译后的代码中提取加密算法。我的第一想法是明知不可为而不为。但是转念一想,何不试试python大法。 1.前期准备 python我…

贪心算法在单位时间任务调度问题中的应用

贪心算法在单位时间任务调度问题中的应用 一、引言二、问题描述与算法设计三、算法证明四、算法实现与效率分析五、C语言实现示例六、结论 一、引言 单位时间任务调度问题是一类经典的优化问题,旨在分配任务到不同的时间槽中,使得某种性能指标达到最优。…

多模态大模型

想了很久,最后还是写了这篇。 LLaVA 贡献多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式; 大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 L…

27 - 数据传送指令

---- 整理自B站UP主 踌躇月光 的视频 文章目录 1. CPU 电路2. 数据传送指令的几种情况3. 实验工程4. 实验结果 1. CPU 电路 2. 数据传送指令的几种情况 # program.asm; 1. ; MOV A, 5;; 2. ; MOV A, B;; 3. ; MOV A, [5];; 4. ; MOV B, 6 ; MOV A, [B]; 5. ; MOV [0x2f], 5;; …

【Qt 学习笔记】Qt常用控件 | 显示类控件 | Calendar Widget的使用及说明

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 显示类控件 | Calendar Widget的使用及说明 文章编号&am…

机器学习-K近邻算法-KNN

1 K-紧邻算法简介 1.1 什么是K-近邻算法 直观上理解,就是根据距离的远近来判断你所处于的类别。 但是,也会存在一些问题,距离最近的样本所属于的类别与你需要判断的类别可能不是同一种类别。 1.1 KNN概念 K Nearest Neighbor算法又叫做KNN算法,这个算法是机器学习里面比较经…

voc数据集转换成coco数据集

在我做一些算法学习的时候,需要将voc数据集转coco放到yolo当中训练,但是在网上找了很多个都不是很好用,要不是会报错,要不是根本不能跑起来。为了节省在学习算法小伙伴的时间,我分享我在工作常常用的voc转coco的脚本。前言 作为本系列第一篇文章,我分享一个模型训练过程中…

Java设计模式 _创建型模式_原型模式(Cloneable)

一、原型模式 1、原型模式(Prototype Pattern)是用于创建重复的对象,同时又能保证性能比较好。一般对付出较大代价获取到的实体对象进行克隆操作,可以提升性能。 2、实现思路: (1)、需要克隆的…

Kafka学习笔记01【2024最新版】

一、Kafka-课程介绍 官网地址:Apache KafkaApache Kafka: A Distributed Streaming Platform.https://kafka.apache.org/ kafka 3.6.1版本,作为经典分布式订阅、发布的消息传输中间件,kafka在实时数据处理、消息队列、流处理等领域具有广泛…

论文解读(MAML)《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》

Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ] 论文信息论文标题:Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks论文作者:Chelsea Finn、Pieter Abbeel、Sergey Levine论文来源:2017 论文地址:download 论文代码:download视屏讲解:click1-摘要…

【网络原理】TCP协议的连接管理机制(三次握手和四次挥手)

系列文章目录 【网络通信基础】网络中的常见基本概念 【网络编程】网络编程中的基本概念及Java实现UDP、TCP客户端服务器程序(万字博文) 【网络原理】UDP协议的报文结构 及 校验和字段的错误检测机制(CRC算法、MD5算法) 【网络…

实验24-基于LSTM的实体提取

版本python3.6 tensorflow版本为tensorflow==1.14 运行结果:

实验25-基于sklearn构建One-hot词向量

版本python3.7 tensorflow版本为tensorflow-gpu版本2.6 运行结果:

实验26-1基于gensim构建word2vec词向量

版本python3.7 tensorflow版本为tensorflow-gpu版本2.6 运行结果:

什么是 Antimalware Service Executable,为什么它会在我的 PC 上运行?

Microsoft Defender Antivirus 是一种反恶意软件工具,其后台进程是“Antimalware Service Executable”。 两者都默认安装在 Windows 10 中。 这个软件,有时称为 MsMpEng.exe,是 Windows 操作系统的一部分。 在本文中,我们将深入并解释有关此 Windows 进程的所有信息。 什么…

实验22-4-jieba常用方法

版本python3.7 tensorflow版本为tensorflow-gpu版本2.6 运行结果: