1 贝叶斯公式
可以将一个联合概率密度分解成一个条件概率密度和一个非条件概率密度乘积的形式
p
(
x
,
y
)
=
p
(
x
∣
y
)
p
(
y
)
=
p
(
y
∣
x
)
p
(
x
)
p(x,y)=p(x|y)p(y)=p(y|x)p(x)
p
(
x
,
y
)
=
p
(
x
∣
y
)
p
(
y
)
=
p
(
y
∣
x
)
p
(
x
)
进而可以得到贝叶斯公式:
p
(
x
∣
y
)
=
p
(
y
∣
x
)
p
(
x
)
p
(
y
)
p(x|y)=\frac{p(y|x)p(x)}{p(y)}
p
(
x
∣
y
)
=
p
(
y
)
p
(
y
∣
x
)
p
(
x
)
上述为一般情况下的单条件贝叶斯公式。
而对于多条件情况,需要引入多变量的贝叶斯公式。
2 多变量贝叶斯公式
下面推导
p
(
A
∣
B
,
C
)
p(A|B,C)
p
(
A
∣
B
,
C
)
的形式,记事件
B
,
C
B,C
B
,
C
同时发生为事件
T
T
T
,则
p
(
A
∣
B
,
C
)
=
p
(
A
∣
T
)
p(A|B,C) = p(A|T)
p
(
A
∣
B
,
C
)
=
p
(
A
∣
T
)
p
(
A
∣
T
)
=
p
(
A
,
T
)
p
(
T
)
p(A|T) = \frac{p(A,T)}{p(T)}
p
(
A
∣
T
)
=
p
(
T
)
p
(
A
,
T
)
p
(
A
∣
B
,
C
)
=
p
(
A
,
B
,
C
)
p
(
B
,
C
)
p(A|B,C)=\frac{p(A,B,C)}{p(B,C)}
p
(
A
∣
B
,
C
)
=
p
(
B
,
C
)
p
(
A
,
B
,
C
)
而
p
(
A
,
B
,
C
)
=
p
(
C
,
A
,
B
)
=
p
(
C
∣
A
,
B
)
p
(
A
,
B
)
=
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
p
(
B
)
(1)
p(A,B,C) = p(C,A,B)=p(C|A,B)p(A,B)\\ =p(C|A,B)p(A|B)p(B) \tag{1}
p
(
A
,
B
,
C
)
=
p
(
C
,
A
,
B
)
=
p
(
C
∣
A
,
B
)
p
(
A
,
B
)
=
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
p
(
B
)
(
1
)
p
(
B
,
C
)
=
p
(
C
∣
B
)
p
(
B
)
(2)
p(B,C)=p(C|B)p(B) \tag{2}
p
(
B
,
C
)
=
p
(
C
∣
B
)
p
(
B
)
(
2
)
由
(
1
)
(
2
)
得
\frac{(1)}{(2)}得
(
2
)
(
1
)
得
p
(
A
,
B
,
C
)
p
(
B
,
C
)
=
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
p
(
B
)
p
(
C
∣
B
)
p
(
B
)
=
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
p
(
C
∣
B
)
\frac{p(A,B,C)}{p(B,C)}= \frac{p(C|A,B)p(A|B)p(B)}{p(C|B)p(B)}=\frac{p(C|A,B)p(A|B)}{p(C|B)}
p
(
B
,
C
)
p
(
A
,
B
,
C
)
=
p
(
C
∣
B
)
p
(
B
)
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
p
(
B
)
=
p
(
C
∣
B
)
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
p
(
A
,
B
,
C
)
p
(
B
,
C
)
=
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
p
(
C
∣
B
)
(3)
\frac{p(A,B,C)}{p(B,C)}=\frac{p(C|A,B)p(A|B)}{p(C|B)} \tag{3}
p
(
B
,
C
)
p
(
A
,
B
,
C
)
=
p
(
C
∣
B
)
p
(
C
∣
A
,
B
)
p
(
A
∣
B
)
(
3
)
3 贝叶斯公式重写MAP
根据式
(
3
)
(3)
(
3
)
x
^
=
arg max
x
p
(
x
∣
v
,
y
)
=
arg max
x
p
(
y
∣
x
,
v
)
p
(
x
∣
v
)
p
(
y
∣
v
)
\hat{x}= \argmax_x p(x|v,y)= \argmax_x \frac{p(y|x,v)p(x|v)}{p(y|v)}
x
^
=
x
arg
max
p
(
x
∣
v
,
y
)
=
x
arg
max
p
(
y
∣
v
)
p
(
y
∣
x
,
v
)
p
(
x
∣
v
)
分母与
x
x
x
无关,观测方程中
y
y
y
与
v
v
v
无关,舍去,最终得到
x
^
=
arg max
x
p
(
x
∣
v
,
y
)
=
arg max
x
p
(
y
∣
x
)
p
(
x
∣
v
)
\hat{x}= \argmax_x p(x|v,y)= \argmax_x p(y|x)p(x|v)
x
^
=
x
arg
max
p
(
x
∣
v
,
y
)
=
x
arg
max
p
(
y
∣
x
)
p
(
x
∣
v
)