01 贝叶斯决策理论要解决的问题
根据已有数据对新的数据行分类
02 从一个经典的例子说起
问题:已知若干条鲈鱼和马哈鱼的长度信息,根于一条未知品种的鱼的长度,判断其是鲈鱼还是马哈鱼。
思路:引入随机变量
,
:鲈鱼;
:马哈鱼;
:鲈鱼的概率;
:马哈鱼的概率。
;
根据已有两种鱼长度
的数据,我们可以知道类条件概率密度函数
那么可以根据贝叶斯公式
可以计算出后验概率密度函数
,如下图
03 最小错误率决策标准
给定鱼的长度,两类属性的概率一目了然,那么采取怎样的标准去判别呢?
最自然想到的标准便是 最小错误率 了
用数学表达就是
证明:
启发式地证明:所谓概率最大就是取上图中上部分的曲线为决策分类,那么下部分的曲线就是错误决策分类,下部分曲线的概率自然是最小的。
04 最小风险决策标准
但是最小错误率标准在某些决策中是不合理的。比如在癌细胞识别的决策过程中,我们对于不同错误的接受程度不同,因此不同错误的决策要乘上不同的权重,来衡量决策的风险,也就形成了最小风险决策。
从例子入手:已知某个局部组织中有异常细胞,且正常细胞
和异常细胞
的先验概率为
和
。给一个待识别的细胞,其观测值为x, 从类条件概率密度函数中可查得:
,
。我们的风险如下表:
其中:λij 表示第i类细胞被决策为j类的风险。显然 λij
=0
,因为这是正确决策。
此题中我们给定: λ=λ11,λ12,λ21,λ22=(0,6,1,0)
根据贝叶斯公式可得后验概率为
将x决策为
的风险
为:
红色部分为正确决策的风险,等于零,蓝色部分为分类错误的风险。
显然,
,应该把x判定为异常细胞。