机器学习算法——贝叶斯分类器1(贝叶斯决策论)

  • Post author:
  • Post category:其他


贝叶斯决策论是概率框架下实施决策的基本方法。

对于分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。



多分类任务

为例解释其基本原理。

1. 先验概率(Prior probability)

先验概率是指根据以往经验和分析得到的概率,反映了我们在实际观察之前对某种状态的预期。

先验概率记作:
P(y=y_i) or P(y_i)

1= \sum_{i=1}^{C} P(y_i)

我们能否可以基于先验做出决策?(决策规则是基于输入所采取的特定行动)

答案是肯定的,但是局限性比较大。因为①先验不考虑其它因素,总是做出同样的预测。②如果先验概率是均匀的,那么规则效果不佳。③ 无法利用更多的信息。

2. 后验概率(Posterior probability)

后验概率是指给定观测向量x,某个特定类别的概率P(y|x)。

=========================================================================


【补充知识】

计算后验概率时,首先先了解什么是条件概率。

条件概率表示为P(A|B),是指事件A在事件B发生的条件下发生的概率。若只有两个事件A,B,那么

P(A|B) = \frac{P(AB)}{P(B)}

其中,P(AB)或P(A,B)或P(A∩B)称为“联合概率”,表示事件A和B同时发生的概率。

还要了解什么是全概率公式?

定义:(完备事件/样本空间得划分)

若B1,B2,…,Bn是一组事件,若

(1)
\forall i \neq j \in {1,2,...,n}, B_i \cap B_j = \oslash

(2)
B_1 \cup B_2 \cup ... \cup B_n = \Omega

则称为B1,B2,…,Bn样本空间
\Omega
的一个划分,或称为样本空间
\Omega
的一个完备事件组。

设事件组{Bi}是样本空间
\Omega
的一个划分,则P(Bi) > 0(i=1,2,…,n)

则对任一事件B,有
P(A) = \sum_{i=1}^{n} P(B_i)P(A|B_i)

=========================================================================

计算后验概率,需要用到贝叶斯定理。贝叶斯定理用来描述两个条件概率之间得关系。比如P(x|y)和P(y|x)。按照乘法法则,可以导出:

P(y, x) = P(y|x) P(x) = P(x|y) P(y)

P(y|x)=\frac{P(x|y)P(y)}{P(x)} = \frac{P(x|y)P(y)}{\sum_{i=1}^{N}P(x|y_i)P(y_i)}

因此,我们希望最大化后验概率(MAP)的类别作为预测结果。即

y^*=arg \underset{i}{max} P(y_i|x)

假设有N种可能的类别标记,即
y=\{ c_1, c_2, ..., c_N\}
,那基于后验概率进行预测,我们犯错的概率(风险)有多大?错误的分类会带来损失,不同的错误带来的损失可能不同(就比如把病人误诊为健康,带来的损失就比较大;把正常人误诊为病人,带来的损失相对较小),则记为
\lambda_ij
,即
\lambda_ij
是一个真实标记为
c_j
的样本误分类为
c_i
所产生的损失。基于后验概率
P(c_i|x)
可获得将样本x分类为ci所产生的期望损失,即在样本x上的“条件风险”,记为

R(c_i|x) = \sum_{j=1}^{N} \lambda _{ij} P(c_j|x)

具体来说,若目标是最小化分类错误率,一般采用0-1条件风险,即误判损失
\lambda_ij
可写为

\lambda_{ij}=\left\{\begin{matrix} 0, if \ i =j\\ \\ 1, if \ i \neq j \end{matrix}\right.

此时,条件风险为

R(c_i|x) = 1- P(c_i|x)

于是,最小化分类错误率的贝叶斯最优分类器为

h^*(x) = arg \ \underset{c \in y}{max} P(c|x)

即对每个样本x,选择能使后验概率P(c|x)最大的类别标记。

然而,在现实任务中通常难以直接获得后验概率,从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)。大体上,有两种策略:


· 判别式模型


给定x,可通过直接建模P(c|x)来预测c

。前面介绍的决策树、支持向量机、BP神经网络都可以归入判别式模型的范畴。


·生成式模型


可先联合概率分布P(x,c)建模,然后由此获得P(c|x)

。即考虑

P(c|x) = \frac{P(x,c)}{P(x)}\\ P(x|c) = \frac{P(x,c)}{P(c)}

基于贝叶斯定理,可写成

P(x,c) = P(x|c) P(c) = P(c|x) P(x)

P(c|x)= \frac{P(c)P(x|c)}{p(x)}

其中,P(c)是先验概率,P(x|c)是样本x相对于类标记c的类条件概率或称为“似然”。P(x)是用于归一化的证据因子。对于样本P(x),证据因子P(x)与类标记无关。因此估计P(c|x)的问题就转化为如何基于训练数据D来估计先验概率P(c)和似然P(x|c)。

先验P(c)表达了样本空间中各类样本所占的比例。根据大数定律,当训练集包含充足的独立同分布样本(随机变量服从同一分布,并且相互独立,即随机变量之间的取值互不影响,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。)时,P(c)可通过各类样本出现的频率来进行估计。

似然P(x|c),由于涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计会遇到严重的困难。

所以下节讲解极大似然估计法。



版权声明:本文为Vicky_xiduoduo原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。