ACL2019|Joint Type Inference on Entities and Relations via Graph Convolutional Networks

  • Post author:
  • Post category:其他


为了解决实体关系联合抽取任务,本文提出了一种在实体关系二分图上运行的图卷积网络。通过引入二元关系分类任务,可以用更有效和可解释的方式利用实体关系二分图结构,为实体关系的联合抽取任务开发了一个新的范例。



引言

对于实体关系抽取来说,现在主流的方法有两种。第一种是管道式(Pipeline),即首先使用实体模型来抽取实体,之后用抽取出的实体作为输入,使用关系模型来抽取关系。这种方法忽视了两个模型之间的相互影响,并且由错误传递的问题。第二种为联合模型,它可以将实体和关系整合到统一模型之中进行联合训练,得到的结果优于管道式的方法。

本文将实体关系联合抽取分为两个子任务,分别是实体范围检测(Entity Span Detection)和实体关系类型推导(Entity Relation Type Deduction)。在实体范围检测中使用序列标注的方法,在实体关系类型推导中使用一种基于图卷积网络的联合模型,同时两个模型进行联合训练。

在联合模型中,作者使用了二元关系分类器来确定两个实体是否形成有效关系。并通过这种方法,以更有效和可解释的方式探索实体关系二分图的结构。



方法



实体范围检测

本文使用序列标注的方法来进行实体范围检测。所使用的标注方法为BILOU架构:B为实体开始(begin),I为实体中间(inside),L为实体末尾(last),O为非实体(outside),U为单个词语范围(single word span)。

对于输入的句子



s

s






s





,作者使用双向LSTM(biLSTM)去合并句子



s

s






s





的正向和反向信息



图 1 用于实体范围检测的biLSTM




h

i

h_i







h










i





















为在位置



i

i






i





上LSTM正向和反向隐藏状态的级联,



x

i

x_i







x










i

























w

i

w_i







w










i





















的词语表示,由与训练模型的



w

i

w_i







w










i





















词嵌入和通过CNN生成的字级别表示构成。之后通过使用softmax层来预测



w

i

w_i







w










i





















的标签



t

^

i

\hat{t}_i















t







^















i
























其中



W

s

p

a

n

W_{span}







W











s


p


a


n






















为参数。对于一个输入句子



s

s






s





和优质标记序列



t

=

t

1

,

.

.

.

,

t

s

t=t_1,…,t_{|s|}






t




=









t










1


















,




.


.


.


,





t














s

























,损失函数为



实体关系二分图

从上一步骤中可以得到实体范围集



(

^

ϵ

)

\hat(\epsilon)













(






^
















ϵ


)





,并将此集合中所有的实体范围对作为潜在的关系。之后,对于句子



s

s






s





,使用其中包含的所有实体和关系构建二分图,图中点的个数为



N

=

(

^

ϵ

)

+

(

^

ϵ

)

(

(

^

ϵ

)

1

)

/

2

N=|\hat(\epsilon)|+分号|\hat(\epsilon)|(|\hat(\epsilon)|-1)/2






N




=


















(






^
















ϵ


)







+
























(






^
















ϵ


)





(












(






^
















ϵ


)
















1


)


/


2





,同时使用矩阵



H

r

12

H_{r12}







H











r


1


2






















代表关系点嵌入,



H

e

1

H_{e1}







H











e


1


























H

e

2

H_{e2}







H











e


2






















代表实体点嵌入。如果将两个实体点之间有关系,则将两者与关系点进行连接,否则三个点保持独立,这样可以将二分图的生成视为一个二元关系分类问题。

对于给定句子



s

s






s





中的关系点



r

i

j

r_{ij}







r











i


j






















,为了获取二元关系标签



(

^

b

)

\hat(b)













(






^
















b


)





,作者对关系点嵌入



H

r

i

j

H_{r_{ij}}







H












r











i


j







































使用了softmax:



其中



W

b

i

n

W_{bin}







W











b


i


n






















为训练参数,损失函数为:



由此可以得出邻接矩阵



A

h

a

r

d

A_{hard}







A











h


a


r


d






















:1)对角线元素为1.0。 2)如果



P

(

(

^

b

)

=

b

r

i

j

,

s

)

>

0.5

P(\hat(b)=b|r_{ij},s)>0.5






P


(









(






^
















b


)




=








b






r











i


j



















,




s


)




>








0


.


5





,则实体点与关系点之间的值设为1.0。3)其他值设为0.0。除此之外,作者还尝试了另外一种邻接矩阵



A

s

o

f

t

A_{soft}







A











s


o


f


t






















,即使用概率P{\hat(b)}代替1.0。

I. 实体点嵌入

使用每个单词的biLSTM隐藏向量,并经过带有多层感知器的单层CNN,得到维度为



d

d






d





的实体点嵌入



H

e

H_e







H










e





















.

II. 关系点嵌入

对于关系点嵌入,相应的两个实体点嵌入,以及实体点组左边的词嵌入,实体点组右边的词嵌入以及两个关系点中间的词嵌入,在经过带有多层感知机的单层CNN之后,级联起来得到最终维度为



d

d






d





的关系点嵌入



H

r

i

j

H_{r_{ij}}







H












r











i


j









































图 2 实体点嵌入和关系点嵌入



联合类型推理

使用实体关系二分图建立多层GCN之后,为了预测实体点



e

i

e_i







e










i





















和关系点



r

i

j

r_{ij}







r











i


j






















的类型,使用公式:



其中



W

e

n

t

,

W

r

e

l

W_{ent},W_{rel}







W











e


n


t



















,





W











r


e


l






















为可训练参数,损失函数为:



其中



y

,

l

y,l






y


,




l





为真实标签。



训练

最后总的损失函数为



(

L

)

=

(

L

)

s

p

a

n

+

(

L

)

b

i

n

+

(

L

)

e

n

t

+

(

L

)

r

e

l

\mathbb(L)=\mathbb(L)_{span}+\mathbb(L)_{bin}+\mathbb(L)_{ent}+\mathbb(L)_{rel}






(


L


)




=








(


L



)











s


p


a


n





















+








(


L



)











b


i


n





















+








(


L



)











e


n


t





















+








(


L



)











r


e


l
























图 3 基于GCN的实体关系联合抽取结构图



实验

作者在数据集ACE05上进行了实验,此数据集包含7种实体类型和6种关系类型。具体实验结果如下:

图 4 对比实验结果

其中L&J,Zhang和Sun为使用联合解码算法的模型,M&B和K&C为使用联合训练但未使用联合解码的模型,NN为作者未使用GCN的神经网络模型,GCN为使用GCN的神经网络模型。

图 5 GCN不同模块层数的影响

图 6 不同GCN类型的F1值

图 7 使用标注数据的结果



结论

本文提出了一种简洁的基于GCN的模型,用于实体关系的联合抽取任务。与现有的方法相比,此方法创新的从GCN的角度进行实体关系抽取,提供了一种新的思路。





扫码识别关注,获取更多新鲜论文解读



版权声明:本文为a609640147原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。