ACL2019|Joint Type Inference on Entities and Relations via Graph Convolutional Networks

为了解决实体关系联合抽取任务，本文提出了一种在实体关系二分图上运行的图卷积网络。通过引入二元关系分类任务，可以用更有效和可解释的方式利用实体关系二分图结构，为实体关系的联合抽取任务开发了一个新的范例。

引言

对于实体关系抽取来说，现在主流的方法有两种。第一种是管道式（Pipeline），即首先使用实体模型来抽取实体，之后用抽取出的实体作为输入，使用关系模型来抽取关系。这种方法忽视了两个模型之间的相互影响，并且由错误传递的问题。第二种为联合模型，它可以将实体和关系整合到统一模型之中进行联合训练，得到的结果优于管道式的方法。

本文将实体关系联合抽取分为两个子任务，分别是实体范围检测（Entity Span Detection）和实体关系类型推导（Entity Relation Type Deduction）。在实体范围检测中使用序列标注的方法，在实体关系类型推导中使用一种基于图卷积网络的联合模型，同时两个模型进行联合训练。

在联合模型中，作者使用了二元关系分类器来确定两个实体是否形成有效关系。并通过这种方法，以更有效和可解释的方式探索实体关系二分图的结构。

方法

实体范围检测

本文使用序列标注的方法来进行实体范围检测。所使用的标注方法为BILOU架构：B为实体开始（begin），I为实体中间（inside），L为实体末尾（last），O为非实体（outside），U为单个词语范围（single word span）。

对于输入的句子

s

$s$

，作者使用双向LSTM（biLSTM）去合并句子

s

$s$

的正向和反向信息

图 1 用于实体范围检测的biLSTM

h_i

$h_{i}$

为在位置

i

$i$

上LSTM正向和反向隐藏状态的级联，

x_i

$x_{i}$

为

w_i

$w_{i}$

的词语表示，由与训练模型的

w_i

$w_{i}$

词嵌入和通过CNN生成的字级别表示构成。之后通过使用softmax层来预测

w_i

$w_{i}$

的标签

\hat{t}_i

$\hat{t}_{i}$

其中

W_{span}

$W_{s p a n}$

为参数。对于一个输入句子

s

$s$

和优质标记序列

∣

t=t_1,…,t_{|s|}

$t = t_{1}, . . ., t_{∣ s ∣}$

，损失函数为

实体关系二分图

从上一步骤中可以得到实体范围集

)

\hat(\epsilon)

$\hat{(} ϵ)$

，并将此集合中所有的实体范围对作为潜在的关系。之后，对于句子

s

$s$

，使用其中包含的所有实体和关系构建二分图，图中点的个数为

∣

(

)

∣

分

号

∣

(

)

∣

(

∣

(

)

∣

−

)

N=|\hat(\epsilon)|+分号|\hat(\epsilon)|(|\hat(\epsilon)|-1)/2

$N = ∣ \hat{(} ϵ) ∣ + 分号 ∣ \hat{(} ϵ) ∣ (∣ \hat{(} ϵ) ∣ - 1) / 2$

，同时使用矩阵

H_{r12}

$H_{r 12}$

代表关系点嵌入，

H_{e1}

$H_{e 1}$

和

H_{e2}

$H_{e 2}$

代表实体点嵌入。如果将两个实体点之间有关系，则将两者与关系点进行连接，否则三个点保持独立，这样可以将二分图的生成视为一个二元关系分类问题。

对于给定句子

s

$s$

中的关系点

r_{ij}

$r_{i j}$

，为了获取二元关系标签

)

\hat(b)

$\hat{(} b)$

，作者对关系点嵌入

H_{r_{ij}}

$H_{r_{i j}}$

使用了softmax:

其中

W_{bin}

$W_{b i n}$

为训练参数，损失函数为：

由此可以得出邻接矩阵

A_{hard}

$A_{h a r d}$

：1)对角线元素为1.0。 2)如果

(

)

∣

)

0.5

P(\hat(b)=b|r_{ij},s)>0.5

$P (\hat{(} b) = b ∣ r_{i j}, s) > 0.5$

，则实体点与关系点之间的值设为1.0。3)其他值设为0.0。除此之外，作者还尝试了另外一种邻接矩阵

A_{soft}

$A_{s o f t}$

，即使用概率P{\hat(b)}代替1.0。

I. 实体点嵌入

使用每个单词的biLSTM隐藏向量，并经过带有多层感知器的单层CNN，得到维度为

d

$d$

的实体点嵌入

H_e

$H_{e}$

.

II. 关系点嵌入

对于关系点嵌入，相应的两个实体点嵌入，以及实体点组左边的词嵌入，实体点组右边的词嵌入以及两个关系点中间的词嵌入，在经过带有多层感知机的单层CNN之后，级联起来得到最终维度为

d

$d$

的关系点嵌入

H_{r_{ij}}

$H_{r_{i j}}$

。

图 2 实体点嵌入和关系点嵌入

联合类型推理

使用实体关系二分图建立多层GCN之后，为了预测实体点

e_i

$e_{i}$

和关系点

r_{ij}

$r_{i j}$

的类型，使用公式：

其中

W_{ent},W_{rel}

$W_{e n t}, W_{r e l}$

为可训练参数，损失函数为：

其中

y,l

$y, l$

为真实标签。

训练

最后总的损失函数为

)

(

)

(

)

(

)

(

)

\mathbb(L)=\mathbb(L)_{span}+\mathbb(L)_{bin}+\mathbb(L)_{ent}+\mathbb(L)_{rel}

$(L) = (L)_{s p a n} + (L)_{b i n} + (L)_{e n t} + (L)_{r e l}$

。

图 3 基于GCN的实体关系联合抽取结构图

实验

作者在数据集ACE05上进行了实验，此数据集包含7种实体类型和6种关系类型。具体实验结果如下：

图 4 对比实验结果

其中L&J，Zhang和Sun为使用联合解码算法的模型，M&B和K&C为使用联合训练但未使用联合解码的模型，NN为作者未使用GCN的神经网络模型，GCN为使用GCN的神经网络模型。

图 5 GCN不同模块层数的影响

图 6 不同GCN类型的F1值

图 7 使用标注数据的结果

结论

本文提出了一种简洁的基于GCN的模型，用于实体关系的联合抽取任务。与现有的方法相比，此方法创新的从GCN的角度进行实体关系抽取，提供了一种新的思路。

扫码识别关注，获取更多新鲜论文解读

原文链接：https://blog.csdn.net/a609640147/article/details/93212524

引言

方法

实体范围检测

实体关系二分图

联合类型推理

训练

实验

结论

你可能也喜欢