朴素贝叶斯

Post author:xfxia
Post published:2023年9月9日
Post category:其他

朴素贝叶斯

贝叶斯定理

设$ X $是代表一条数据，由$ n $个属性构成；$ H $为某种假设，如数据$ X $属于某个特定的类$ C $。$ P(H|X)$ 是在已知$ X $的几个属性下，$ X $属于某个类$ C $的概率。贝叶斯定理如下：

P (H | X) = P ( X | H ) P ( H ) P ( X )

$P(H|X) = \frac{P(X|H)P(H)}{P(X)}$

其中，$ P(H|X)$是在条件$X$下，$H$的后验概率，$ P(H)$是$H$的先验概率。

朴素贝叶斯(Naive Bayesian)

设$D$是包含数据和其所属类的集合。每条数据由n维属性向量$X = { x_1,x_2,\ldots,x_n}$表示。
假设数据集$D$有m个类$ C_1,C_2,\ldots,C_m $，用朴素贝叶斯预测某一条数据$X$属于哪一类就变成了概率问题，即属于哪一类的概率最大。

$P (C i | X) = P ( X | C i ) P ( C i ) P ( X )$
$P(C_i|X) = \frac{P(X|C_i)P(C_i)}{P(X)}$

由于$P(X)$对于所有类为常数，所以只需要求出最大的$P(X|C_i)P(C_i)$。
如果类的先验概率未知，通常假定属于哪个类是等概率的，即$P(C_1)=P(C_2)=\cdots=P(C_m)$，否则可以用$P(C_i)=|C_i|/|D|$来估计。
在属性很多的情况下，计算$ P(X|C_i) $的开销可能会非常大，为了降低开销，可以做

类条件独立

的朴素假定。因此有如下等式

P

(

X

|

C

i

)

=

∏

k

=

1

n

P

(

x

k

|

C

i

)

=

p

(

x

1

|

C

i

)

p

(

x

2

|

C

i

)

⋯

p

(

x

n

|

C

i

)

$P(X|C_i) = \prod_{k=1}^n P(x_k|C_i) = p(x_1|C_i)p(x_2|C_i) \cdots p(x_n|C_i)$

对于数据的每个属性$X_k$，考察其值是离散的还是连续的。
- 如果$X_k$是离散的，则$ P(x_i|C_k) $为数据集$D$中属于$C_i$类且其$X_k)属性值为\( x_k$的数据的数量除以属于$C_i$类数据的数量。
- 如果$X_k$是连续的，通常假定此连续的属性值是服从均值为$\mu$，标准差为$ \sigma $的高斯分布，由下式定义
  
  $g (x, μ, σ) = 1 2 π - - \sqrt σ e - ( x - μ ) 2 2 σ 2$
  $g(x,\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
  
  $P (x k | C i) = g (x k, μ C i, σ C i)$
  $P(x_k|C_i)=g(x_k,\mu_{C_i},\sigma_{C_i})$
  
  其中$\mu_{C_i}$和$\sigma_{C_i}$是属于$C_i$类数据属性$X_k$均值和标准差。
对于每个类$C_i$ 计算$ P(X|C_i)P(C_i) $最后得出最大的$C_i$就是$X$的预测所属类

拉普拉斯校准

如果对类$C_1$的数据，其属性值$x_1=1$的数量为0，即某一项$P(x_1|C_i)=0$，就会导致P(X|C_i)=0，不管其它后验概率$P(x_{2\ldots n}|C_i)$是多少。为了避免这种情况发生，使用拉普拉斯校准:

如果对q个计数都加上1，则必须记住在用于计算概率的对应分母上加上q。

例如：假设在某数据集$D$中，属于类$C_1$(有购买计算机行为)的数据有10000条，其中对于属性$X_1$(收入等级)，收入低的数据有0条，收入中等的数据有8000条，收入高的数据有2000条。

不使用拉普拉斯校准的情况下，这些事件发生的概率为0，0.8，0.2。

使用拉普拉斯校准分别为$\frac{0+1}{10000+3}$，$\frac{8000+1}{10000+3}$，$\frac{2000+1}{10000+3}$。

校准后的概率与未校准的概率很接近，而且避免了0概率值。

原文链接：https://blog.csdn.net/github_36869152/article/details/72831594

朴素贝叶斯

贝叶斯定理

朴素贝叶斯(Naive Bayesian)

拉普拉斯校准

你可能也喜欢