为了解决实体关系联合抽取任务,本文提出了一种在实体关系二分图上运行的图卷积网络。通过引入二元关系分类任务,可以用更有效和可解释的方式利用实体关系二分图结构,为实体关系的联合抽取任务开发了一个新的范例。
    
   
    
    
    引言
   
    对于实体关系抽取来说,现在主流的方法有两种。第一种是管道式(Pipeline),即首先使用实体模型来抽取实体,之后用抽取出的实体作为输入,使用关系模型来抽取关系。这种方法忽视了两个模型之间的相互影响,并且由错误传递的问题。第二种为联合模型,它可以将实体和关系整合到统一模型之中进行联合训练,得到的结果优于管道式的方法。
    
    本文将实体关系联合抽取分为两个子任务,分别是实体范围检测(Entity Span Detection)和实体关系类型推导(Entity Relation Type Deduction)。在实体范围检测中使用序列标注的方法,在实体关系类型推导中使用一种基于图卷积网络的联合模型,同时两个模型进行联合训练。
    
    在联合模型中,作者使用了二元关系分类器来确定两个实体是否形成有效关系。并通过这种方法,以更有效和可解释的方式探索实体关系二分图的结构。
   
    
    
    方法
   
    
    
    实体范围检测
   
    本文使用序列标注的方法来进行实体范围检测。所使用的标注方法为BILOU架构:B为实体开始(begin),I为实体中间(inside),L为实体末尾(last),O为非实体(outside),U为单个词语范围(single word span)。
    
    对于输入的句子
    
     
      
       s 
        s
      
      
       
        
        
        
         s
        
       
      
     
    
    ,作者使用双向LSTM(biLSTM)去合并句子
    
     
      
       s 
        s
      
      
       
        
        
        
         s
        
       
      
     
    
    的正向和反向信息
    
    
    
    
    
    
     
      
       h 
i
        h_i
      
      
       
        
        
        
         
          h
         
         
          
           
            
             
              
              
              
               
                i
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    为在位置
    
     
      
       i 
        i
      
      
       
        
        
        
         i
        
       
      
     
    
    上LSTM正向和反向隐藏状态的级联,
    
     
      
       x 
i
        x_i
      
      
       
        
        
        
         
          x
         
         
          
           
            
             
              
              
              
               
                i
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    为
    
     
      
       w 
i
        w_i
      
      
       
        
        
        
         
          w
         
         
          
           
            
             
              
              
              
               
                i
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    的词语表示,由与训练模型的
    
     
      
       w 
i
        w_i
      
      
       
        
        
        
         
          w
         
         
          
           
            
             
              
              
              
               
                i
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    词嵌入和通过CNN生成的字级别表示构成。之后通过使用softmax层来预测
    
     
      
       w 
i
        w_i
      
      
       
        
        
        
         
          w
         
         
          
           
            
             
              
              
              
               
                i
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    的标签
    
     
      
       t 
^
i
        \hat{t}_i
      
      
       
        
        
        
         
          
           
            
             
              
              
              
               
                t
               
              
             
             
              
              
              
               ^
              
             
            
           
          
         
         
          
           
            
             
              
              
              
               
                i
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    
    
    
    其中
    
     
      
       W 
s
p
a
n
        W_{span}
      
      
       
        
        
        
         
          W
         
         
          
           
            
             
              
              
              
               
                
                 s
                
                
                 p
                
                
                 a
                
                
                 n
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    为参数。对于一个输入句子
    
     
      
       s 
        s
      
      
       
        
        
        
         s
        
       
      
     
    
    和优质标记序列
    
     
      
       t 
=
t
1
,
.
.
.
,
t
∣
s
∣
        t=t_1,…,t_{|s|}
      
      
       
        
        
        
         t
        
        
        
        
         =
        
        
        
       
       
        
        
        
         
          t
         
         
          
           
            
             
              
              
              
               
                1
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
        
         ,
        
        
        
        
         .
        
        
         .
        
        
         .
        
        
         ,
        
        
        
        
         
          t
         
         
          
           
            
             
              
              
              
               
                
                 ∣
                
                
                 s
                
                
                 ∣
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    ,损失函数为
    
    
   
    
    
    实体关系二分图
   
    从上一步骤中可以得到实体范围集
    
     
      
       ( 
^
ϵ
)
        \hat(\epsilon)
      
      
       
        
        
        
         
          
           
            
             
             
             
              (
             
            
            
             
             
             
              ^
             
            
           
           
            
           
          
          
           
            
            
           
          
         
        
        
         ϵ
        
        
         )
        
       
      
     
    
    ,并将此集合中所有的实体范围对作为潜在的关系。之后,对于句子
    
     
      
       s 
        s
      
      
       
        
        
        
         s
        
       
      
     
    
    ,使用其中包含的所有实体和关系构建二分图,图中点的个数为
    
     
      
       N 
=
∣
(
^
ϵ
)
∣
+
分
号
∣
(
^
ϵ
)
∣
(
∣
(
^
ϵ
)
∣
−
1
)
/
2
        N=|\hat(\epsilon)|+分号|\hat(\epsilon)|(|\hat(\epsilon)|-1)/2
      
      
       
        
        
        
         N
        
        
        
        
         =
        
        
        
       
       
        
        
        
         ∣
        
        
         
          
           
            
             
             
             
              (
             
            
            
             
             
             
              ^
             
            
           
           
            
           
          
          
           
            
            
           
          
         
        
        
         ϵ
        
        
         )
        
        
         ∣
        
        
        
        
         +
        
        
        
       
       
        
        
        
         分
        
        
         号
        
        
         ∣
        
        
         
          
           
            
             
             
             
              (
             
            
            
             
             
             
              ^
             
            
           
           
            
           
          
          
           
            
            
           
          
         
        
        
         ϵ
        
        
         )
        
        
         ∣
        
        
         (
        
        
         ∣
        
        
         
          
           
            
             
             
             
              (
             
            
            
             
             
             
              ^
             
            
           
           
            
           
          
          
           
            
            
           
          
         
        
        
         ϵ
        
        
         )
        
        
         ∣
        
        
        
        
         −
        
        
        
       
       
        
        
        
         1
        
        
         )
        
        
         /
        
        
         2
        
       
      
     
    
    ,同时使用矩阵
    
     
      
       H 
r
12
        H_{r12}
      
      
       
        
        
        
         
          H
         
         
          
           
            
             
              
              
              
               
                
                 r
                
                
                 1
                
                
                 2
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    代表关系点嵌入,
    
     
      
       H 
e
1
        H_{e1}
      
      
       
        
        
        
         
          H
         
         
          
           
            
             
              
              
              
               
                
                 e
                
                
                 1
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    和
    
     
      
       H 
e
2
        H_{e2}
      
      
       
        
        
        
         
          H
         
         
          
           
            
             
              
              
              
               
                
                 e
                
                
                 2
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    代表实体点嵌入。如果将两个实体点之间有关系,则将两者与关系点进行连接,否则三个点保持独立,这样可以将二分图的生成视为一个二元关系分类问题。
   
    对于给定句子
    
     
      
       s 
        s
      
      
       
        
        
        
         s
        
       
      
     
    
    中的关系点
    
     
      
       r 
i
j
        r_{ij}
      
      
       
        
        
        
         
          r
         
         
          
           
            
             
              
              
              
               
                
                 i
                
                
                 j
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    ,为了获取二元关系标签
    
     
      
       ( 
^
b
)
        \hat(b)
      
      
       
        
        
        
         
          
           
            
             
             
             
              (
             
            
            
             
             
             
              ^
             
            
           
           
            
           
          
          
           
            
            
           
          
         
        
        
         b
        
        
         )
        
       
      
     
    
    ,作者对关系点嵌入
    
     
      
       H 
r
i
j
        H_{r_{ij}}
      
      
       
        
        
        
         
          H
         
         
          
           
            
             
              
              
              
               
                
                 
                  r
                 
                 
                  
                   
                    
                     
                      
                      
                      
                       
                        
                         i
                        
                        
                         j
                        
                       
                      
                     
                    
                    
                     
                    
                   
                   
                    
                     
                     
                    
                   
                  
                 
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    使用了softmax:
    
    
    
    其中
    
     
      
       W 
b
i
n
        W_{bin}
      
      
       
        
        
        
         
          W
         
         
          
           
            
             
              
              
              
               
                
                 b
                
                
                 i
                
                
                 n
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    为训练参数,损失函数为:
    
    
    
    由此可以得出邻接矩阵
    
     
      
       A 
h
a
r
d
        A_{hard}
      
      
       
        
        
        
         
          A
         
         
          
           
            
             
              
              
              
               
                
                 h
                
                
                 a
                
                
                 r
                
                
                 d
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    :1)对角线元素为1.0。 2)如果
    
     
      
       P 
(
(
^
b
)
=
b
∣
r
i
j
,
s
)
>
0.5
        P(\hat(b)=b|r_{ij},s)>0.5
      
      
       
        
        
        
         P
        
        
         (
        
        
         
          
           
            
             
             
             
              (
             
            
            
             
             
             
              ^
             
            
           
           
            
           
          
          
           
            
            
           
          
         
        
        
         b
        
        
         )
        
        
        
        
         =
        
        
        
       
       
        
        
        
         b
        
        
         ∣
        
        
         
          r
         
         
          
           
            
             
              
              
              
               
                
                 i
                
                
                 j
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
        
         ,
        
        
        
        
         s
        
        
         )
        
        
        
        
         >
        
        
        
       
       
        
        
        
         0
        
        
         .
        
        
         5
        
       
      
     
    
    ,则实体点与关系点之间的值设为1.0。3)其他值设为0.0。除此之外,作者还尝试了另外一种邻接矩阵
    
     
      
       A 
s
o
f
t
        A_{soft}
      
      
       
        
        
        
         
          A
         
         
          
           
            
             
              
              
              
               
                
                 s
                
                
                 o
                
                
                 f
                
                
                 t
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    ,即使用概率P{\hat(b)}代替1.0。
   
    I. 实体点嵌入
    
    使用每个单词的biLSTM隐藏向量,并经过带有多层感知器的单层CNN,得到维度为
    
     
      
       d 
        d
      
      
       
        
        
        
         d
        
       
      
     
    
    的实体点嵌入
    
     
      
       H 
e
        H_e
      
      
       
        
        
        
         
          H
         
         
          
           
            
             
              
              
              
               
                e
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    .
   
    II. 关系点嵌入
    
    对于关系点嵌入,相应的两个实体点嵌入,以及实体点组左边的词嵌入,实体点组右边的词嵌入以及两个关系点中间的词嵌入,在经过带有多层感知机的单层CNN之后,级联起来得到最终维度为
    
     
      
       d 
        d
      
      
       
        
        
        
         d
        
       
      
     
    
    的关系点嵌入
    
     
      
       H 
r
i
j
        H_{r_{ij}}
      
      
       
        
        
        
         
          H
         
         
          
           
            
             
              
              
              
               
                
                 
                  r
                 
                 
                  
                   
                    
                     
                      
                      
                      
                       
                        
                         i
                        
                        
                         j
                        
                       
                      
                     
                    
                    
                     
                    
                   
                   
                    
                     
                     
                    
                   
                  
                 
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    。
    
    
   
    
    
    联合类型推理
   
    使用实体关系二分图建立多层GCN之后,为了预测实体点
    
     
      
       e 
i
        e_i
      
      
       
        
        
        
         
          e
         
         
          
           
            
             
              
              
              
               
                i
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    和关系点
    
     
      
       r 
i
j
        r_{ij}
      
      
       
        
        
        
         
          r
         
         
          
           
            
             
              
              
              
               
                
                 i
                
                
                 j
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    的类型,使用公式:
    
    
    
    其中
    
     
      
       W 
e
n
t
,
W
r
e
l
        W_{ent},W_{rel}
      
      
       
        
        
        
         
          W
         
         
          
           
            
             
              
              
              
               
                
                 e
                
                
                 n
                
                
                 t
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
        
         ,
        
        
        
        
         
          W
         
         
          
           
            
             
              
              
              
               
                
                 r
                
                
                 e
                
                
                 l
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    为可训练参数,损失函数为:
    
    
    
    其中
    
     
      
       y 
,
l
        y,l
      
      
       
        
        
        
         y
        
        
         ,
        
        
        
        
         l
        
       
      
     
    
    为真实标签。
   
    
    
    训练
   
    最后总的损失函数为
    
     
      
       ( 
L
)
=
(
L
)
s
p
a
n
+
(
L
)
b
i
n
+
(
L
)
e
n
t
+
(
L
)
r
e
l
        \mathbb(L)=\mathbb(L)_{span}+\mathbb(L)_{bin}+\mathbb(L)_{ent}+\mathbb(L)_{rel}
      
      
       
        
        
        
         (
        
        
         L
        
        
         )
        
        
        
        
         =
        
        
        
       
       
        
        
        
         (
        
        
         L
        
        
         
          )
         
         
          
           
            
             
              
              
              
               
                
                 s
                
                
                 p
                
                
                 a
                
                
                 n
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
        
        
        
         +
        
        
        
       
       
        
        
        
         (
        
        
         L
        
        
         
          )
         
         
          
           
            
             
              
              
              
               
                
                 b
                
                
                 i
                
                
                 n
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
        
        
        
         +
        
        
        
       
       
        
        
        
         (
        
        
         L
        
        
         
          )
         
         
          
           
            
             
              
              
              
               
                
                 e
                
                
                 n
                
                
                 t
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
        
        
        
         +
        
        
        
       
       
        
        
        
         (
        
        
         L
        
        
         
          )
         
         
          
           
            
             
              
              
              
               
                
                 r
                
                
                 e
                
                
                 l
                
               
              
             
            
            
             
            
           
           
            
             
             
            
           
          
         
        
       
      
     
    
    。
    
    
   
    
    
    实验
   
    作者在数据集ACE05上进行了实验,此数据集包含7种实体类型和6种关系类型。具体实验结果如下:
    
    
    
    其中L&J,Zhang和Sun为使用联合解码算法的模型,M&B和K&C为使用联合训练但未使用联合解码的模型,NN为作者未使用GCN的神经网络模型,GCN为使用GCN的神经网络模型。
    
    
    
    
    
    
   
    
    
    结论
   
本文提出了一种简洁的基于GCN的模型,用于实体关系的联合抽取任务。与现有的方法相比,此方法创新的从GCN的角度进行实体关系抽取,提供了一种新的思路。
扫码识别关注,获取更多新鲜论文解读
 
