跳转至

OneEE: 快速重叠和嵌套事件抽取的单阶段框架

论文标题: OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction
作者: Hu Cao, Jingye Li, Fangfang Su, Fei Li, Hao Fei, Shengqiong Wu, Bobo Li, Liang Zhao, Donghong Ji
机构: 武汉大学、新加坡国立大学、圣保罗大学
论文链接: https://arxiv.org/pdf/2209.02693
代码: https://github.com/Cao-Hu/OneEE


摘要

事件抽取(Event Extraction, EE)是信息抽取中的一项基本任务,旨在从非结构化文本中提取结构化的事件信息。大多数先前的工作专注于抽取平面事件(flat events),而忽视了重叠(overlapped)或嵌套(nested)事件。少数针对重叠和嵌套事件抽取的模型包含多个连续阶段来抽取事件触发词(trigger)和论元(argument),这存在误差传播问题。因此,我们设计了一种简单有效的标注方案,将事件抽取建模为词对关系识别任务,称为OneEE。触发词或论元词之间的关系在一个阶段内通过并行网格标注同时识别,从而实现非常快速的事件抽取速度。该模型配备了一个自适应事件融合模块来生成事件感知表示,以及一个距离感知预测器来整合相对距离信息以进行词对关系识别。实验在3个重叠和嵌套事件抽取基准(FewFC、Genia11和Genia13)上进行,结果表明OneEE达到了最先进的(SoTA)结果。此外,OneEE的推理速度比基线方法更快,并且可以进一步提高,因为它支持并行推理。


1. 引言

事件抽取(EE)是信息抽取研究中一项基础且具有挑战性的任务。EE促进了实际应用的发展,如知识图谱构建、生物过程分析和金融市场监控。EE的目标是识别事件触发词以及从文本中识别相关论元。

三种事件类型示例

类型 示例 说明
平面事件 (Flat) 王雅伟减持三居环保股份。 包含触发词"减持"和主体论元"王雅伟"
重叠事件 (Overlapped) 中信证券收购广州证券100%股权。 两个重叠事件(投资、股权转让)共享相同的触发词"收购"和论元词"广州证券"
嵌套事件 (Nested) 降解的CGN刺激单核细胞中ICAM-1的表达。 基因表达事件是正调控事件的Theme论元

现有方法的局限性

传统的事件抽取方法将事件抽取视为序列标注任务,假设事件提及不会相互重叠。然而,它们忽略了复杂的不规则事件抽取场景(即重叠和嵌套事件)。

现有的重叠和嵌套事件抽取方法采用基于流水线的方法,在多个连续阶段中抽取事件触发词和论元。这种多阶段方法的主要问题是后一阶段依赖于前一阶段,这固有地带来了误差传播问题。

本文贡献

为解决上述问题,本文提出了一种新颖的标注方案,将重叠和嵌套事件抽取转化为词对关系识别:

  1. 设计新的标注方案:将事件抽取建模为词对关系识别任务,为重叠和嵌套事件抽取提供了一种新颖且简单的解决方案
  2. 提出OneEE模型:一个单阶段模型,能够并行有效地抽取重叠和嵌套事件的词对关系
  3. 提出自适应事件融合层:获得事件感知上下文表示并有效整合事件信息
  4. 性能优势:OneEE在性能和推理速度方面均优于SoTA模型

2. 相关工作

2.1 事件抽取

信息抽取是自然语言处理中的关键研究方向,其中事件抽取是最复杂的任务。传统的事件抽取(即平面或规则事件抽取)将事件抽取制定为序列标注任务,为每个token分配标签(例如BIO标注方案)。然而,它们的基本假设是事件提及不会相互重叠,这并不总是成立。不规则事件抽取(即重叠和嵌套事件抽取)尚未得到太多关注,这更具挑战性且更现实。

现有的重叠和嵌套事件抽取方法采用流水线方法,在多个步骤中执行事件抽取。为了解决论元重叠问题,一些研究采用多组二元分类器,每组服务于一个角色以检测特定角色的论元跨度,但无法解决触发词重叠。最新的处理重叠事件抽取的尝试是CasEE,它联合执行类型检测、触发词抽取和论元抽取,其中重叠目标根据特定预测分别抽取。然而,大多数多阶段方法都存在误差传播问题。

2.2 基于标注的信息抽取

信息抽取领域中的标注方案已被广泛研究。传统的序列标注方法为每个token标注一次(例如BIO)难以处理不规则信息抽取(例如重叠NER)。一些研究者扩展了BIO标签方案以适应更复杂的场景,但由于灵活性有限,它们存在标签歧义问题。

最近,网格标注方案被用于许多信息抽取任务,如观点挖掘、关系抽取和命名实体识别,因为它具有呈现词对之间关系的特性。受此启发,我们设计了标注方案来解决重叠和嵌套事件抽取,在一个阶段内并行预测触发词或论元词之间的关系。


3. 问题定义

事件抽取的目标包括抽取事件触发词及其论元。我们可以将重叠和嵌套事件抽取形式化如下:给定一个由N个token或词组成的输入句子 \(X = \{x_1, x_2, ..., x_N\}\) 和事件类型 \(e \in E\),任务旨在抽取每个词对 \((x_i, x_j)\) 之间的跨度关系 \(S\) 和角色关系 \(R\),其中 \(E\) 表示事件类型集合,\(S\)\(R\) 是预定义的标签。

关系类型定义

  • S(跨度关系):表示 \(x_i\)\(x_j\) 分别是抽取的触发词跨度(S-T)或论元跨度(S-A)的起始和结束token,其中 \(1 \leq i \leq j \leq N\)

  • R(角色关系):表示以 \(x_j\) 为边界的论元在包含 \(x_i\) 的触发词事件中扮演特定角色 \(R-*\),其中 \(1 \leq i, j \leq N\)。*表示角色类型。

  • NONE:表示词对之间没有本文定义的任何关系。


4. 框架

模型架构主要由三个组件组成:

4.1 编码器层

使用BERT作为编码器,从输入句子中产生上下文词表示。给定输入句子 \(X = \{x_1, x_2, ..., x_N\}\),将每个token \(x_i\) 转换为词片段,然后输入到预训练的BERT模块中。BERT计算后,每个句子词可能涉及多个片段的向量表示。这里采用最大池化来基于词片段表示产生词表示 \(H = \{h_1, h_2, ..., h_N\} \in \mathbb{R}^{N \times d_h}\)

4.2 自适应事件融合层

为了将全局事件信息编码到词表示中,采用门控模块来融合上下文词表示和全局事件表示。该层由注意力模块和两个门控融合模块组成:

注意力机制: $\(\text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_h}})V\)$

其中 \(\sqrt{d_h}\) 是缩放因子,\(Q\)\(K\)\(V\) 是查询、键和值张量。

门控融合机制: $\(\text{Gate}(p, q) = g \odot p + (1 - g) \odot q\)$ $\(g = \sigma(W_g[p; q] + b_g)\)$

其中 \(p\)\(q\) 是输入向量,\(\sigma(\cdot)\) 是sigmoid激活函数,\(\odot\)\([;]\) 分别表示元素级乘积和连接操作。

全局事件嵌入计算: $\(E_g = \text{Attention}(W_qH, W_kE, W_vE)\)$

其中 \(E_g\) 是注意力机制的输出,\(W_q\)\(W_k\)\(W_v\) 是可学习参数。

融合过程: $\(H_g = \text{Gate}(H, E_g)\)$ $\(V = \text{Gate}(H_g, e_t)\)$

其中 \(e_t \in E\) 表示目标事件类型嵌入,\(V = \{v_1, v_2, ..., v_N\} \in \mathbb{R}^{N \times d_h}\) 是最终的事件感知词表示。

4.3 联合预测层

在自适应事件融合层之后,获得事件感知词表示 \(V\),用于联合预测每对词之间的跨度和角色关系。对于每个词对 \((w_i, w_j)\),计算分数来衡量它们对于关系 \(s \in S\)\(r \in R\) 的可能性。

距离感知分数

为了整合相对距离信息和词对表示,引入距离感知分数函数。对于来自表示序列的两个向量 \(p_i\)\(p_j\),将它们与相应的位置嵌入结合,然后通过它们的点积计算分数:

\[\text{Score}(p_i, p_j) = (R_i p_i)^T (R_j p_j) = p_i^T R_{j-i} p_j\]

其中 \(R_i\)\(R_j\)\(p_i\)\(p_j\) 的位置嵌入,\(R_{j-i} = R_j^T R_i\)

跨度分数和角色分数: $\(c_{ij}^{st} = \text{Score}(W_{s1}v_i, W_{s2}v_j)\)$ $\(c_{ij}^{rt} = \text{Score}(W_{r1}v_i, W_{r2}v_j)\)$

其中 \(W_{s1}\)\(W_{s2}\)\(W_{r1}\)\(W_{r2}\) 是参数。

4.4 训练细节

对于分数 \(c_{ij}^?\),其中 \(?\) 表示关系 \(s\)\(r\),训练目标是最小化circle损失的变体,该变体扩展了softmax交叉熵损失以解决多标签分类问题。此外,引入阈值分数 \(\delta\),注意到具有关系的词对分数大于 \(\delta\),其他词对分数小于它。

损失函数: $\(L_? = \sum_{(i,j) \in \Omega_?} \log(e^{\delta - c_{ij}^?} + e^{c_{ij}^?}) + \sum_{(i,j) \notin \Omega_?} \log(e^{\delta + c_{ij}^?} + e^{-c_{ij}^?})\)$

其中 \(\Omega_?\) 表示关系 \(?\) 的词对集合,\(\delta\) 设置为零。

总损失: $\(L = \sum_{t \in E'} \sum_{s \in S} \sum_{r \in R} (L_s + L_r)\)$


5. 实验设置

5.1 数据集

数据集 #重叠 #嵌套 #句子 #事件
FewFC
train 1,560 - 7,185 10,227
dev 205 - 899 1,281
test 210 - 898 1,332
Genia11
train 954 1,628 8,730 6,401
dev 121 199 1,091 824
test 125 197 1,092 775
Genia13
train 347 784 4,000 2,743
dev 44 100 500 352
test 42 88 500 320

5.2 实现细节

  • FewFC使用中文Bert-base模型
  • Genia11和Genia13使用BioBERT
  • 优化器:AdamW
  • BERT学习率:2e-5,其他模块学习率:1e-3
  • 批次大小:8
  • 隐藏层大小:768
  • FewFC和Genia11训练20轮,Genia13训练30轮

5.3 评估指标

  1. 触发词识别(TI):如果预测的触发词跨度与黄金标签匹配,则触发词被正确识别
  2. 触发词分类(TC):如果触发词被正确识别并分配到正确的类型,则触发词被正确分类
  3. 论元识别(AI):如果事件类型被正确识别且预测的论元跨度与黄金标签匹配,则论元被正确识别
  4. 论元分类(AC):如果论元被正确识别且预测的角色与任何黄金标签匹配,则论元被正确分类

5.4 基线方法

序列标注方法(平面事件抽取): - BERT-softmax:使用BERT获取特征表示以分类触发词和论元 - BERT-CRF:在BERT上添加CRF层以捕获标签依赖关系 - BERT-CRF-joint:将BIO标注方案扩展为类型和角色的联合标签

多阶段方法(重叠和嵌套事件抽取): - PLMEE:通过以流水线方式根据触发词抽取器预测的触发词抽取特定角色的论元来解决论元重叠问题 - CasEE:依次执行类型&触发词&论元抽取,其中重叠目标根据先前预测分别抽取,所有子任务联合学习


6. 实验结果

6.1 所有事件抽取的结果

FewFC数据集结果

方法 TI(%) P/R/F1 TC(%) P/R/F1 AI(%) P/R/F1 AC(%) P/R/F1
BERT-softmax 89.8/79.0/84.0 80.2/61.8/69.8 74.6/62.8/68.2 72.5/60.2/65.8
BERT-CRF 90.8/80.8/85.5 81.7/63.6/71.5 75.1/64.3/69.3 72.9/61.8/66.9
BERT-CRF-joint 89.5/79.8/84.4 80.7/63.0/70.8 76.1/63.5/69.2 74.2/61.2/67.1
PLMEE 83.7/85.8/84.7 75.6/74.5/75.1 74.3/67.3/70.6 72.5/65.5/68.8
MQAEE 89.1/85.5/87.4 79.7/76.1/77.8 70.3/68.3/69.3 68.2/66.5/67.3
CasEE 89.4/87.7/88.6 77.9/78.5/78.2 72.8/73.1/72.9 71.3/71.5/71.4
OneEE 88.7/88.7/88.7 79.1/80.3/79.7 75.4/77.0/76.2 74.0/72.9/73.4

Genia11和Genia13数据集结果

数据集 方法 TI F1 TC F1 AI F1 AC F1
Genia11 BERT-softmax 67.8 64.4 57.4 56.0
BERT-CRF 68.3 64.8 58.3 56.9
BERT-CRF-joint 67.0 64.1 60.2 58.1
PLMEE 67.3 65.5 60.7 59.4
CasEE 70.0 67.0 62.0 60.4
OneEE 71.5 69.5 65.9 62.5
Genia13 BERT-softmax 77.4 75.9 69.9 67.7
BERT-CRF 78.8 77.4 70.1 68.2
BERT-CRF-joint 77.6 75.7 71.9 68.2
PLMEE 79.3 78.3 72.1 70.7
CasEE 80.5 78.5 73.7 71.9
OneEE 81.9 80.8 76.8 72.7

6.2 重叠和嵌套事件抽取的结果

实验结果表明:

  1. 方法显著优于所有其他方法:在三个数据集上都达到了最先进的F1分数
  2. 与序列标注方法相比:模型在召回率和F1分数方面取得了更好的结果。在FewFC数据集上,AC的召回率和F1分数分别比BERT-CRF-joint高出11.7%和6.3%;在两个Genia数据集上,AC的F1分数平均提高了4.4%
  3. 与多阶段方法相比:模型在F1分数方面也大大提高了性能。在三个数据集上,TC的F1分数平均比最先进的模型CasEE高出2.1%。AI和AC分别比CasEE提高了3.4%和1.6%

6.3 融合层中各模块的效果

消融研究表明:

  • 没有注意力机制:性能略有下降
  • 用加法操作替换门控机制:性能也有小幅下降
  • 用加法替换自适应事件融合层:显著下降,表明事件表示和上下文的有用性
  • 移除位置嵌入:所有F1分数显著下降,特别是AC的F1分数下降1.6%,表明位置信息对于识别词对关系至关重要

6.4 距离感知标签预测的效果

根据论元与相应触发词的距离将FewFC测试集中的论元分为6组。结果表明:

  • 随着事件中触发词和论元之间距离的增加,AC召回率下降,表明如果事件中距离较长,模型更难正确检测角色
  • 使用位置嵌入的模型优于没有位置嵌入的模型,表明相对距离信息有利于事件抽取

6.5 参数数量与效率比较

模型 阶段数 参数量 速度(sent/s) 加速比
PLMEE 两阶段 204.6M 19.8 ×1.0
CasEE 三阶段 120.7M 62.3 ×3.1
OneEE 单阶段 114.2M 79.4 ×4.0
OneEE† 单阶段 114.2M 186.5 ×9.4

(†表示批次大小为8测试)

结果表明: - PLMEE的参数是其他两个模型的2倍 - OneEE的推理速度比PLMEE快约3倍,比CasEE快0.3倍 - 当批次大小设置为8时,OneEE的推理速度是PLMEE的9.4倍 - OneEE使用更少的参数但实现了更好的性能和更快的推理速度

6.6 4种角色标签策略分析

研究了4种不同的角色标签策略对AC性能的影响:

  1. TH-AH:触发词头和论元头对
  2. TW-AH:触发词词和论元头对
  3. TH-AW:触发词头和论元词对
  4. TW-AW:触发词词和论元词对

结果表明TW-AW在FewFC和Genia11数据集上都取得了最好的结果,主要是因为其标签比其他策略更密集。

6.7 事件数量分析

进一步研究了事件数量对事件抽取的影响。结果表明:

  • 在单事件句子上,BERT-CRF-joint、PLMEE和CasEE取得了相似的性能
  • 在多事件句子上,CasEE优于PLMEE和BERT-CRF-joint
  • 最重要的是,对于不同数量的事件,系统都取得了比所有其他基线更好的结果

7. 结论

本文提出了一种基于词对关系识别的新型单阶段框架,同时解决重叠和嵌套事件抽取问题。词对之间的关系被预定义为触发词或论元内的词对关系以及触发词-论元对之间的交叉关系。此外,提出了一个高效的模型,包括用于整合目标事件表示的自适应事件融合层,以及用于联合识别所有类型关系的距离感知预测层。实验结果表明,所提出的模型在三个数据集上取得了新的SoTA结果,并且比SoTA模型更快。

通过消融研究,发现自适应事件融合层和距离感知预测层在提高模型性能方面是有效的。在未来的工作中,将扩展方法到其他结构化预测任务,如结构化情感分析和重叠实体关系抽取。


致谢

本工作得到国家自然科学基金(No. 62176187)、国家重点研发计划(No. 2017YFC1200500)、教育部人文社会科学研究青年基金(No. 22YJCZH064)、湖北省自然科学基金面上项目(No. 2021CFB385)等资助。