详解朴素贝叶斯

1.概念

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故称之为贝叶斯分类。而

朴素贝叶斯分类是贝叶斯分类中最简单

，也是最常见的一种分类法。

分类问题综述

对于分类问题，其实谁都不陌生，日常生活中我们每天都进行折分类过程。例如，当你看到一个人，你的脑子下意识判断他是学生还是社会上的人；你可能经常走在路上对身旁的朋友说“这个人一看就很有钱”之类的化，其实也是一个分类操作

既然是贝叶斯分类算法，那么分类的

数学描述

又是什么呢？

从数学角度来说，分类问题可做如下定义：已知集合

=

y

1

,

y

2

,

…

y

n

C=y_{1}, y_{2}, \ldots y_{n}

$C = y_{1}, y_{2}, \dots y_{n}$

和

=

x

1

,

x

2

,

x

3

…

…

x

n

I=x_{1}, x_{2}, x_{3} \ldots \ldots x_{n}

$I = x_{1}, x_{2}, x_{3} \dots \dots x_{n}$

，确定映射规则y = f()，使得任意

i

ϵ

I

x_{i} \epsilon I

$x_{i} ϵ I$

有且仅有一个

i

ϵ

C

y_{i} \epsilon C

$y_{i} ϵ C$

,使得

i

ϵ

f

(

x

i

)

y_{i} \epsilon f\left(x_{i}\right)

$y_{i} ϵ f (x_{i})$

成立。

其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合（特征集合），其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。

分类算法的内容是要求给定特征，让我们得出类别，这也是所有分类问题的关键。那么如何由指定特征，得到我们最终的类别，也是我们下面要讲的，每一个不同的分类算法，对应着不同的核心思想。

2.朴素贝叶斯分类

2.1 朴素贝叶斯公式定理

那么既然是朴素贝叶斯分类算法，它的核心算法又是什么呢？

是下面这个贝叶斯公式：

(

∣

)

(

∣

)

(

)

(

)

P(B \mid A)=\frac{P(A \mid B) P(B)}{P(A)}

$P (B ∣ A) = \frac{P ( A ∣ B ) P ( B )}{P ( A )}$

换个表达形式就会明朗很多，如下：

(

类别特征

)

(

特征|类别)

(

类别

)

(

特征

)

\mathrm{p}(\text { 类别特征 })=\frac{p(\text { 特征|类别) } \mathrm{p}(\text { 类别 })}{\mathrm{p}(\text { 特征 })}

$p (类别特征) = \frac{p ( 特征 | 类别 ) p ( 类别 )}{p ( 特征 )}$

我们最终求的p(类别|特征)即可！就相当于完成了我们的任务。

2.2 例题分析

下面我先给出例子问题。

给定数据如下：

在这里插入图片描述

问题

：

如果一对男女朋友，男生想女生求婚，男生的四个特点分别是不帅，性格不好，身高矮，不上进，请你判断一下女生是嫁还是不嫁？

这是一个典型的分类问题，转为数学问题就是

比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率，谁的概率大，我就能给出嫁或者不嫁的答案

！

这里我们联系到朴素贝叶斯公式：

在这里插入图片描述

我们需要求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的，但是通过朴素贝叶斯公式可以转化为好求的三个量，

p(不帅、性格不好、身高矮、不上进|嫁)、p（不帅、性格不好、身高矮、不上进)、p(嫁)（至于为什么能求，后面会讲，那么就太好了，将待求的量转化为其它可求的值，这就相当于解决了我们的问题！）

2.3 朴素贝叶斯算法的朴素一词解释

那么这三个量是如何求得？

是根据已知训练数据统计得来，下面详细给出该例子的求解过程。

回忆一下我们要求的公式如下：

在这里插入图片描述

那么我只要求得p(不帅、性格不好、身高矮、不上进|嫁)、p（不帅、性格不好、身高矮、不上进)、p(嫁)即可，好的，下面我分别求出这几个概率，最后一比，就得到最终结果。

等等，为什么这个成立呢？学过概率论的同学可能有感觉了，这个等式成立的条件需要特征之间相互独立吧！

对的！这也就是为什么朴素贝叶斯分类有朴素一词的来源，朴素贝叶斯算法是假设各个特征之间相互独立，那么这个等式就成立了！

但是为什么需要假设特征之间相互独立呢？

我们这么想，假如没有这个假设，那么我们对右边这些概率的估计其实是不可做的，这么说，我们这个例子有4个特征，其中帅包括{帅，不帅}，性格包括{不好，好，爆好}，身高包括{高，矮，中}，上进包括{不上进，上进}，

那么四个特征的联合概率分布总共是4维空间，总个数为2

3

3*2=36个

。

24个，计算机扫描统计还可以，但是现实生活中，往往有非常多的特征，每一个特征的取值也是非常之多，那么通过统计来估计后面概率的值，变得几乎不可做，这也是为什么需要假设特征之间独立的原因。
假如我们没有假设特征之间相互独立，那么我们统计的时候，就需要在整个特征空间中去找，比如统计p(不帅、性格不好、身高矮、不上进|嫁),

我们就需要在嫁的条件下，去找四种特征全满足分别是不帅，性格不好，身高矮，不上进的人的个数，这样的话，由于数据的稀疏性，很容易统计到0的情况。这样是不合适的。

根据上面俩个原因，朴素贝叶斯法对条件概率分布做了条件独立性的假设，由于这是一个较强的假设，朴素贝叶斯也由此得名！这一假设使得朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

好的，上面我解释了为什么可以拆成分开连乘形式。那么下面我们就开始求解！

我们将上面公式整理一下如下：

在这里插入图片描述

下面我将一个一个的进行统计计算（

在数据量很大的时候，根据中心极限定理，频率是等于概率的，这里只是一个例子，所以我就进行统计即可

）。

p(嫁)=？

首先我们整理训练数据中，嫁的样本数如下：

在这里插入图片描述

则 p(嫁) = 6/12（总样本数） = 1/2

p(不帅|嫁)=？统计满足样本数如下：

在这里插入图片描述

则p(不帅|嫁) = 3/6 = 1/2

p(性格不好|嫁)= ？统计满足样本数如下：

在这里插入图片描述

则p(性格不好|嫁)= 1/6

p（矮|嫁） = ?统计满足样本数如下：

在这里插入图片描述
则p(矮|嫁) = 1/6

p(不上进|嫁) = ?统计满足样本数如下：

在这里插入图片描述

则p(不上进|嫁) = 1/6

下面开始求分母，p(不帅)，p（性格不好），p（矮），p（不上进）

统计样本如下：

在这里插入图片描述

不帅统计如上红色所示，占4个，那么p（不帅） = 4/12 = 1/3

性格不好统计如上红色所示，占4个，那么p（性格不好） = 4/12 = 1/3

身高矮统计如上红色所示，占7个，那么p（身高矮） = 7/12

在这里插入图片描述

不上进统计如上红色所示，占4个，那么p（不上进） = 4/12 = 1/3

到这里，要求p(不帅、性格不好、身高矮、不上进|嫁)的所需项全部求出来了，下面我带入进去即可，

在这里插入图片描述

= (1/2

1/6

1/6

1/6

1/2)/(1/3

1/3

7/12*1/3)

下面我们根据同样的方法来求p(不嫁|不帅，性格不好，身高矮，不上进)，完全一样的做法，为了方便理解，我这里也走一遍帮助理解。首先公式如下：

在这里插入图片描述

下面我也一个一个来进行统计计算，这里与上面公式中，分母是一样的，于是我们分母不需要重新统计计算！

p（不嫁）=？根据统计计算如下（红色为满足条件）：

则p(不嫁)=6/12 = 1/2

p(不帅|不嫁) = ？统计满足条件的样本如下（红色为满足条件）：

在这里插入图片描述

则p（不帅|不嫁） = 1/6

p（性格不好|不嫁） = ？据统计计算如下（红色为满足条件）：

则p（性格不好|不嫁） =3/6 = 1/2

很显然(1/6

1/2

1

1/2) > (1/2

1/6

1/6

1/6*1/2)

于是有p (不嫁|不帅、性格不好、身高矮、不上进)>p (嫁|不帅、性格不好、身高矮、不上进)

所以我们根据朴素贝叶斯算法可以给这个女生答案，是不嫁！！！！

3. 朴素贝叶斯分类的优缺点

优点：

（1）算法逻辑简单,易于实现

（2）分类过程中时空开销小

缺点：

理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。

而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

**

更多请见：

https://zhuanlan.zhihu.com/p/26262151

原文链接：https://blog.csdn.net/suotanyu1595/article/details/120399054

目录