概率之基础概念

  • Post author:
  • Post category:其他


1 概率分布(probability distribution)

用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。

离散型变量和概率质量函数(probability mass function, PMF)

离散型随机变量的概率分布可以用PMF来描述。通常使用大写字母P来表示PMF。例如
P(x)

PMF将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。x~P(x)

PMF可以同时作用于多个随机变量,称为联合概率分布(joint probability distribution)。如P(x,y)

如果一个函数P是随机变量x的PMF,必须满足以下条件:

  • P的定义域必须是x所有可能状态的集合
  • $ {\forall}$x${\in}$X, 0\leq p(x) \leq 1
  • \sum_{x\in X}p(x)=1
    归一化的(normalized)

连续型变量和概率密度函数(probability density function, PDF)

PDF需要满足以下几个条件:

  • p的定义域必须是x所有可能状态的集合。
  • \forall x \in X, p(x)\geq 0
    ,注意并不要求
    p(x)\leq 1
  • \int p(x)dx=1

2 边缘分布(marginal probability distribution)

有时我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。

例如,假设有离散型随机变量x和y,并且我们知道P(x,y)。我们依据下面的求和法则(sum rule)来计算P(x):

\forall x \in X, P(x=a)=\sum_b p(x=a, y=b)

对于连续型变量,需要用积分替代求和:

p(x)=\int p(x,y)dy

3 条件概率

某个事件在给定其他事件发生时出现的概率称为条件概率。

P(y=b|x=a)=\frac{P(y=b,x=a)}{P(x=a)}

4 条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式。

p(x^{(1)}, \dots , x^{(n)})) = p(x^{(1)}) \prod_{i=2}^{n}p(x^{(i)}|x(1), \dots, x^{(i-1)})

该规则被称为概率的链式法则(chain rule)或者乘法法则(product rule)。

5 独立性和条件独立性

两个随机变量相互独立(independent),满足下面公式:

\forall a \in A, b \in B, p(x=a, y=b) = p(x=a)p(y=b)
\small x \perp y

如果关于x和y的条件概率分布对于z的每一个值都可以写成乘积的形式,那么这两个随机变量x和y在给定随机变量z时是条件独立的(conditionally independent)。

\small \forall a \in A, b \in B, c \in C, p(x=a, y=b | z=c)=p(x=a|z=c)p(y=b|z=c)
\small x \perp y | z

6 期望、方差和协方差

期望

函数f(x)关于某分布P(x)的期望(expectation)或者期望值(expected value)是指,当x由P产生,f作用于x时,f(x)的平均值。

离散型随机变量:

\small E_{x \thicksim p}[f(x)] = \sum_{x}p(x)f(x)

连续型随机变量:

\small E_{x \thicksim p}[f(x)] = \int p(x)f(x)dx

期望是线性的:

\small E_{x}[\alpha f(x) + \beta g(y)] = \alpha E_x[f(x)] + \beta E_x[g(y)]

方差(variance)

方差衡量的是当我们对x依据它的概率分布进行采样时,随机变量x的函数值会呈现多大的差异。

\small Var(f(x)) = E[(f(x) - E[f(x)])^2]

当方差值很小时,f(x)的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差(standard deviation)。

协方差(covariance)

在某种意义上给出了两个变量线性相关的强度以及这些变量的尺度。

\small Cov(f(x), g(y)) = E[(f(x) - E[f(x)])(g(y) - E[g(y)])]

协方差和独立性是由联系的,却是两个不同的概念。如果两个变量相互独立,那么它们的协方差为0;但是如果两个变量的协方差为0,那么它们一定是没有线性关系的,但是它们不一定是不相关的(非线性关系)。

随机向量
\small \vec x \in R^n
的协方差矩阵(covariance matrix)是一个 n*n 的矩阵,并且满足:

\small Cov(x)_{i,j} = Cov(x_i, x_j)

协方差矩阵的对角是方差:

\small Cov(x_i, x_i) = Var(x_i)



版权声明:本文为u012119316原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。