文献阅读：AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization

AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization

1. 内容简介

这篇文献是字节跳动实验室李航博士在8月份发布的一篇文献，他的核心内容还是在bert的基础上的一个变体模型。

与Roberta，span bert等不同，这篇文章的主要关注点在于输入文本的颗粒度上。他的最核心观点认为：

bert使用的分词颗粒度太细了，会丢失词的信息，因此通过调整输入序列的词颗粒度，可以优化模型的效果。

一种比较直接的思路就是使用词颗粒度的输入，但是单纯的使用词颗粒度的输入同样可能带来一定的问题，首先词表过大将会带来许多词汇的学习不充分以及unk问题，另一方面，分词本身也会由于分词本身的错误带来许多的问题。

因此，李航博士尝试同时采用词颗粒度以及字颗粒度的输入，来同时抓取两者的信息，从而提升模型的性能，在多项NLU任务中获得了SOTA的效果。

某种意义而言，这就很像是ensemble的方式，但是后者会大幅的增加参数量，减慢模型的运行效率。因此，李航博士共享了除了embedding层之外的所有参数，从而使得参数量的增加控制在了一个可以接受的范围内。

2. 原理 & 模型结构

如前所述，这篇文章的最核心思想就是在模型的信息输入层使用多颗粒度的信号。

给出论文中给出的整体的模型结构图如下：

在这里插入图片描述

其核心在于输入将会被处理为两个不同颗粒度的序列，而后分别将其通过embedding层之后再通过encoder层，最后将两个encoder层的输出结果进行concat操作。

而模型的训练方式还是采用bert的MLM模型训练方式，即mask输入中的部分token，而后对其进行预测，不过论文中并没有明确地写明粗细颗粒度的输入文本中mask的部分是否一致。

另外，针对这一个模型的loss函数，则是简单的采用两个颗粒度下的loss相加的方式，其loss函数定义公式如下：

−

∑

(

∣

)

−

∑

(

∣

)

loss = -\sum_{i=1}^{m}{m_i \dot log(p_{\theta}(x_i|\hat{x}))} – \sum_{i=1}^{n}{n_j \dot log(p_{\theta}(z_j|\hat{z}))}

$l o s s = - i = 1 \sum m m_{i} \dot{l} o g (p_{θ} (x_{i} ∣ \overset{x}{^})) - i = 1 \sum n n_{j} \dot{l} o g (p_{θ} (z_{j} ∣ \overset{z}{^}))$

其中，

x

$x$

和

z

$z$

分别为粗细颗粒度下的输入词汇，

m

$m$

和

n

$n$

表示mask，如果一个词被mask了，则

m_i

$m_{i}$

（

n_j

$n_{j}$

）为1，反之为0。

3. 实验

下面，我们来具体看一下作者针对ambert进行的一些具体的实验。

1. 模型预训练语料 & 数据处理

首先，我们来看一下作者有关模型预训练使用的语料。

针对中文模型的预训练，作者使用了57G的文本，全部来源于头条数据；而针对英文模型的预训练，作者使用了47G的文本，基本和bert保持一致，不过，BookCorpus数据已经无法获取了，因此作者没有使用这部分数据。

有关中文的粗细颗粒度分词方式，细粒度的就是采用了字的分词，粗粒度则是采用了字条跳动内部的分词工具，但是两者共用同一份词表。

而有关英文的分词方式，细颗粒度的同样直接以单词为单位进行分词，粗颗粒度则是通过统计n-gram词频的方式获得。

模型训练则是使用V100的卡，mask的比例保持和bert一致，均为15%。

2. 中文语料下的finetune实验

该文献在分类以及阅读理解任务中测试了finetune之后的模型效果，并且在clue系列任务下比较了ambert与当前的sota模型直接的效果比较。

1. 分类任务中效果

finetune中文预训练模型之后在分类任务中的模型效果如下图所示：

在这里插入图片描述

其中，AMBERT-Combo模型为放弃encoder部分的参数共享，直接暴力地使用两个encoder模型进行concat之后进行处理；而AMBERT-Hybrid则是在只是用一个encoder，在输入数据中直接concat粗细颗粒度的文本，这样，self-attention就会同时看到两部分的数据。

可以看到，在大部分的下游任务中，使用了粗细颗粒度信息的模型效果是优于单一的bert模型的。但是由于实质上ambert相当于是两个bert模型的ensemble，因此，不太好说他的效果提升是否真的来源于同时使用了不同颗粒度信息。

另一方面，针对AMBERT以及AMBERT-Combo模型，可以看到，AMBERT模型的效果在大部分任务中还是优于Combo模型的，所以可以证明：

联合不同颗粒度信息确实可以提升模型的信息抽取能力，进而提升模型的效果

。

2. 阅读理解任务中效果

同样的，我们在阅读理解任务中比较AMBERT与BERT之间的性能差异。

给出实验结果对比图如下：

在这里插入图片描述

可以看到：

在阅读理解任务当中，AMBERT全面碾压了BERT模型。

3. sota模型对比

最后，我们考察以下除了bert之外当前的一些sota模型与AMBERT模型的性能比较。

给出实验结果图如下：

在这里插入图片描述

可以看到：

在大多数实验中，AMBERT都有着较好的性能表达。

3. 英文语料下的finetune实验

同样的，我们对英文的AMBERT模型效果进行考察。