作者：CHEONG

公众号：AI机器学习与知识图谱

研究方向：自然语言处理与知识图谱

阅读本文之前，首先注意以下两点：

1、机器学习系列文章常含有大量公式推导证明，为了更好理解，文章在最开始会给出本文的重要结论，方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2、文中含有大量公式，若读者需要获取含公式原稿Word文档，可关注公众号后回复：

HMM第四讲

，本文针对一般的状态空间模型，介绍常探究的两大任务Learning问题和Inference问题。

对于一般的状态空间模型State Space Model，如下图所示，自然HMM模型也是包含在内：

在这里插入图片描述

一般需要探究的任务从整体上可以划分为两大类，

1、Learning问题，学习模型参数；

2、Inference问题，例如：求后验概率。

更加详细的划分参见下图：

在这里插入图片描述

在Inference问题下又细分出了五类问题，分别是Decoding、Prob of evidence、Filtering、Smoothing和Prediction问题。其中Prob of evidence即是HMM中介绍的Evaluation问题。

在HMM第二讲和第三讲中已经详细介绍过Inference下的Learning和Evaluation问题，请参考：

本文将简单介绍一下Deocding、Filtering、Smoothing和Prediction问题求解的大致思路，基本使用到的算法就是前向算法、后向算法和前向-后向算法等。

1、Decoding问题：已知观测序列

O

$O$

，求解使得

(

∣

)

p(I|O,\lambda)

$p (I ∣ O, λ)$

最大的隐状态序列

I

$I$

，公式表示为：

在这里插入图片描述

解决算法：Viterbi算法。属于动态规划算法，最主要求出递归式。

在这里插入图片描述

因此可以得出动态规划递归式为：

在这里插入图片描述

为了更好的理解上面递归式的得出，可以参考下图用来理解：

在这里插入图片描述

2、Filtering问题：已知观测序列

x_1,x_2,…,x_t

$x_{1}, x_{2}, . . ., x_{t}$

，求解概率

(

∣

)

p(z_t|x_1,x_2,…,x_t)

$p (z_{t} ∣ x_{1}, x_{2}, . . ., x_{t})$

，求解的推导过程如下：

在这里插入图片描述

其中

在这里插入图片描述

\alpha_t

$α_{t}$

在介绍HMM前向算法是引入的，还有一个在HMM后向算法中引入的

\beta_t

$β_{t}$

在这里插入图片描述

3、Smoothing问题：已知全部观测序列

x_1,x_2,…,x_t

$x_{1}, x_{2}, . . ., x_{t}$

，求解概率

(

∣

)

p(z_t|x_1,x_2,…,x_T)

$p (z_{t} ∣ x_{1}, x_{2}, . . ., x_{T})$

，求解的推导过程如下：

在这里插入图片描述

根据齐次马尔科夫假设：

在这里插入图片描述

因此：

在这里插入图片描述

Filtering问题常用于求解在线问题，观测数据是实时的

x_1,x_2,…,x_t

$x_{1}, x_{2}, . . ., x_{t}$

；而Smoothing问题常用于求解离线问题，已经获取的是全部的观测数据

x_1,x_2,…,x_T

$x_{1}, x_{2}, . . ., x_{T}$

。

4、Prediction问题：已知观测数据

x_1,x_2,…,x_t

$x_{1}, x_{2}, . . ., x_{t}$

，求解概率

(

∣

)

p(z_{t+1}|x_1,x_2,…,x_t)

$p (z_{t + 1} ∣ x_{1}, x_{2}, . . ., x_{t})$

、

(

∣

)

p(x_{t+1}|x_1,x_2,…,x_t)

$p (x_{t + 1} ∣ x_{1}, x_{2}, . . ., x_{t})$

，求解的推导过程如下：

在这里插入图片描述

根据观测独立假设：

在这里插入图片描述

其中

(

∣

)

p(z_{t}|x_1,x_2,…,x_t)

$p (z_{t} ∣ x_{1}, x_{2}, . . ., x_{t})$

便是Filtering问题求解的结果，这样便求出了

(

∣

)

p(z_{t+1}|x_1,x_2,…,x_t)

$p (z_{t + 1} ∣ x_{1}, x_{2}, . . ., x_{t})$

，而对于预测问题

(

∣

)

p(x_{t+1}|x_1,x_2,…,x_t)

$p (x_{t + 1} ∣ x_{1}, x_{2}, . . ., x_{t})$

，推导如下：

在这里插入图片描述

根据观测独立假设：

在这里插入图片描述

其中

(

∣

)

p(z_{t+1}|x_1,x_2,…,x_t)

$p (z_{t + 1} ∣ x_{1}, x_{2}, . . ., x_{t})$

在上面已经求出，因此便可顺利求出

(

∣

)

p(x_{t+1}|x_1,x_2,…,x_t)

$p (x_{t + 1} ∣ x_{1}, x_{2}, . . ., x_{t})$

参考视频资料：【机器学习】【白板推导系列】作者：shuhuai008

参考书籍资料：Pattern Recognition and Machine Learning 作者：[Christopher Bishop]

三、往期精彩

【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】基于生成式的知识图谱预训练模型

【知识图谱系列】基于2D卷积的知识图谱嵌入

【知识图谱系列】基于实数或复数空间的知识图谱嵌入

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

【面经系列】八位硕博大佬的字节之旅

【机器学习系列】机器学习中的两大学派

各大AI研究院共35场NLP算法岗面经奉上

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战，看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇：最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码

原稿获取请关注公众号后回复：

HMM第四讲

，原创不易，有用就点个赞呀！

原文链接：https://blog.csdn.net/feilong_csdn/article/details/117290786

三、往期精彩

你可能也喜欢