©PaperWeekly 原创 · 作者 |
werge
研究方向 |
自然语言处理
传统事件抽取任务一般分为的事件检测(ED, Event Detection)和事件论元抽取(EAE, Event Argument Extraction)两个子任务。前者用于识别事件触发词并对其对应的事件类型进行分类;后者则主要用于提取触发词对应的论元及其角色。事件抽取任务一般使用多个分类任务框架建模,或者采用统一的生成式方法。
这两种范式都同时学习事件检测和事件论元抽取的共享表示,然而这两个子任务具有不同的特征依赖,共享表示的使用会降低它们的性能。类似的问题也存在于实体关系抽取等任务中。因此,使用独立的编码器来分别建模不同的子任务会有助于提高任务性能 [1][2]。
为了解决事件抽取任务中不同子任务之间的特征干扰问题,本文提出了一个简单而实用的混合框架。该框架使用独立编码器来分别建模事件检测和事件论元抽取,并通过广泛的实验研究分类方法和生成方法之间的差异。
实验结果表明,在 token-classification 任务中,分类方法优于生成方法,而生成方法在建模事件论元抽取时更为有效,因此,本文在模型中使用了两个不同类型的解码器:一个分类式解码器用于事件检测,一个生成式解码器用于事件论元抽取。此外,本文还设计了一个桥接机制来增强这两个任务之间的交互,并使用双阶段训练方法来指导事件检测的学习。
本文在 ACE05-E、ACE05-E+ 和 ERE-EN 三个基准测试集上进行了评估,实验结果表明,本文提出的模型在 ACE05-E 和 ACE05-E+ 上建立了新的最佳结果,并在 ERE-EN 数据集上取得了可比较的效果。
论文标题:
A Hybrid Detection and Generation Framework with Separate Encoders for Event Extraction
论文链接:
https://aclanthology.org/2023.eacl-main.231.pdf
Method
本文提出的框架 HDGSE3(
H
ybrid
D
etection and
G
eneration Framework with
S
eparate
E
ncoders for
E
vent
E
xtraction) 如下图所示:
Event Trigger Detection
:本文使用 BERT 作为触发词检测模型的基础模型,将其视为 token-classification 任务,使模型学习每种事件类型的不同概率。检测模型将检测出所有可能的触发词和相应的事件类型,并使用生成模型逐个提取每个事件的论元。
Generative Argument Extraction
:在检测到候选事件触发词后,根据检测到的触发词和事件类型将论元抽取任务划分为几个子任务,每个子任务是一个事件。本文使用生成模型独立地处理每个事件,并在输入序列中插入标记以突出触发词。
具体而言,对于每个子任务,模型的输入包括事件类型感知提示和上下文信息,其中触发词被标记为特殊的标记(如上图中的
trg
标记)。生成模型使用 BART 模型作为基础模型,通过预先生成的 token 和文本输入,通过预定义的论元模板来对每个子任务进行处理,并抽取出最终的事件论元。
Bridging Event Detection and Event Argument Extraction
:尽管本文提出的范式是独立地学习事件检测(ED)和事件论元抽取(EAE)的上下文表示,然而这并不意味着这两个任务之间没有关联。
为了增强这两个子任务之间的交互作用,本文通过
触发词
将两个任务进行桥接:第一,如上一部分所述,本文在 EAE 的输入中突出显示触发词,以提供位置信息;第二,将触发词的上下文信息融入 EAE 模型中。具体而言,对于触发词标记 ,它在 BERT 的最后一层隐藏状态是 ,在 BART 中的输入 embedding 是 。
本文提出了两种可能的融入方式:一种是通过将 进行投影并与 相加作为触发词的最终表示,另一种则是直接将 进行投影后作为触发词的嵌入表示。在实验部分,本文进行了这两种方式的对比试验。
Training and Inference
:本文提出了一种两阶段训练的方法:在第一阶段中,本文首先单独训练事件检测(ED)和事件论元抽取(EAE),以便它们可以独立学习上下文表示;在第二阶段中,为了克服流水线误差传播问题,本文继续使用联合训练来优化基于第一阶段模型的全局损失,并使用事件论元抽取的梯度来指导事件检测的优化。
具体而言,ED模型的目标函数为最小化每个 token 的预测标签和真实标签之间的焦点损失 [3],而 EAE 模型的目标函数则为最小化输入样本 中所有子事件的负对数似然:
最终的损失函数即为以上两个子任务损失函数之和。
Experiments
本文在 ACE05-E、ACE05-E+ 和 ERE-EN三个基准测试集上测试,采用 trigger/argument-F1 作为评估指标。同时,本文认为如果触发词的偏移量与真实值相匹配(Trg-I),则触发词被正确地识别出来,如果它的事件类型也与真实值相匹配(Trg-C),则被正确地分类。同样地,如果论元的偏移量与真实值相匹配(Arg-I),则论元被正确地识别出来,如果其事件类型和角色标签都与真实值匹配(Arg-C),则被正确地分类。
本文选取了多个基于分类和生成式模型的 baseline 进行对比。本文在每个数据集上采用了 5 个不同的种子来训练模型,并计算了结果平均值。实验结果如下两表所示。第一张表为 ACE05-E 上的结果,第二张表为另外两个数据集的结果。
在 ACE05-E 数据集上,本文提出的模型 HDGSE3 在 ACE 2005 的两个数据集上表现出色,胜过所有 baseline。同时,在 ERE-EN 上也表现出与其他强基线可比的表现。在事件检测方面,本文的模型相较于 DEGREE-E2E 和 GTEE-DYNPRE 等联合训练但使用生成方法进行 ED 的方法,在 ACE05-E 和 ACE05-E+ 数据集上分别取得了 +5.8% 和 +2.9% 的绝对 Trg-C F1 提升,表明分类方法在事件检测方面具有更多优势。
另一方面,相较于分类方法,本文的模型也显示出显著的改进,例如与 ONEIE(Lin et al., 2020b)相比在 ACE05-E 上获得 4.3% 的提升。正如本文后来在实验中所展示的那样,其中一部分改进是由于桥接机制的作用。
本文还进一步研究了分类模型或生成模型对事件检测任务(ED)和事件论元抽取任务(EAE)的影响,以深入了解这两种方法在事件抽取任务中的优缺点。具体地,在事件检测任务中,本文比较了这两种模型的表现,结果如下表所示。
实验表明,在标准设置(带有触发标记)下,生成方法的性能与基于分类的模型相当。而一些基于模板的生成方法则表现得更好,这可能是因为这类方法在提示设计中融入了更多的事件知识。
本文同样还对桥接机制进行了分析,以了解它们如何影响本文提出的范式。本文分别在 Joint 和 Pipeline 的设置下删除了两个独立编码器之间的连接模块,并在下表中展示了实验结果。
结果表明,删除触发词标记对模型的影响非常大,虽然上下文表示也可以提高模型的性能,但是改进的空间不如触发词标记大。当本文同时删除它们时,如表 5 所示,Trg-C 的 F1 分数仍然保持在一个非常高的水平,但 Arg-C 的 F1 得分显著降低。
这些现象表明,事件检测代表着事件论元抽取的上界,桥接机制可以帮助事件论元抽取接近这个上界,甚至反过来提高事件检测的结果。这就是桥接机制的主要贡献所在。此外,从另一个角度来看,当只比较训练范式时,可以发现在联合训练中的损失共享可以显著提高模型的整体性能,因此联合结果通常优于 pipeline 结果,这证明了本文的两阶段训练方案的有效性。
Conclusion
本文重新审视了基于分类和生成的事件抽取方法,并提出了一个简单但稳健的混合事件抽取方案。本文的模型学习了两个独立的编码器,分别用于事件检测和事件论元抽取,并使用简单的触发词标记和上下文表示融合来进行联合桥接训练,为此本文设计了一个两阶段的训练方法。
本文进行了广泛的分析,以了解本文方法的卓越性能。这些分析验证了使用分类模型和生成模型分别学习事件检测和事件论元抽取的上下文表示的有效性,并验证了将事件检测的结果作为事件论元抽取的输入的重要性。本文希望这个简单的模型能够作为端到端事件抽取的强大基准,并让本文重新思考多任务共享表示的价值。
参考文献
[1] Thien Huu Nguyen and Ralph Grishman. 2015. Event detection and domain adaptation with convolutional neural networks. In
Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), pages 365–371, Beijing, China. Association for Computational Linguistics.
[2] Yaojie Lu, Hongyu Lin, Xianpei Han, and Le Sun. 2019. Distilling discrimination and generalization knowledge for event detection via delta-representation learning. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4366–4376, Florence, Italy. Association for Computational Linguistics.
[3] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?
答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是
最新论文解读
,也可以是
学术热点剖析
、
科研心得
或
竞赛经验讲解
等。我们的目的只有一个,让知识真正流动起来。
📝
稿件基本要求:
• 文章确系个人
原创作品
,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以
markdown
格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供
业内具有竞争力稿酬
,具体依据文章阅读量和文章质量阶梯制结算
📬
投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(
pwbot02
)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在
「知乎」
也能找到我们了
进入知乎首页搜索
「PaperWeekly」
点击
「关注」
订阅我们的专栏吧
·
·