Michael collins nlp课程笔记（三）Log-Linear Models

loglinear.pdf

在

语言模型

和

标注问题

中，马尔科夫模型和隐马尔科夫模型都做出了很强的条件独立性假设。例如，语言模型中假设了第i个单词出现的概率仅与前两个单词有关，标注问题中假设了第i个tag只与前两个tag有关。实际上，这种假设会忽略掉一些有用的信息。Log-Linear的提出正是为了解决这个问题。

我们的任务是为了建立一个模型，来预测
$y$
的可能性。

Log-Linear模型中最核心的部分在于特征的构造，也就是将
$x$
和
$y$
通过函数
$f$
映射到一个特征向量。函数
$f$
是一组指示函数。在语言模型中，可以是如下的指示函数：

可以看到，这样子构造出来的特征考虑了更多的信息。

这样构造出来的特征向量维度很大，而且只有很小一部分的取值为1，其他都是0，存在着特征稀疏的问题。可以通过一个函数

求出特征向量中取值为1的部分，在后续的计算中，使用

减少计算的时间。

为了方便后续的求解，对概率
$p(y|x;v)$
取对数：

由此，也可以看出Log-Linear名字的由来：log是对概率值取对数，linear是指
$logp(y|x;v)$
是特征向量
$f(x,y)$
的线性函数。模型的参数就是向量
$v$
。

训练集的概率对数之和为：

。参数的估计可以采用极大似然估计法：

为了避免过拟合以及参数
$v$
中的某些值取无穷值，引入正则项
$||v||^2 = \sum_k v_k^2$
。修正后的目标函数为：

为了求解参数
$v$
，可以使用下面的基于梯度提升的算法：

其中，梯度计算结果为：

。