蒙特卡洛积分和重要性采样

本文先补充两条基础的概率论公式,方便大家更好地看懂全文
假设某一连续型随机变量
$\int_D xp(x)dx E ( X ) = ∫ D x p ( x ) d x$
若另一连续随机变量Y满足Y = f(X),则Y的数学期望为:
$\int_D f(x)p(x)dx E ( Y ) = ∫ D f ( x ) p ( x ) d x$

现在假如我们要计算一个定积分:
$\int^b_a f(x)dx A = ∫ a b f ( x ) d x$
我们可以使用牛顿-莱布尼茨通过求原函数来算这个积分(F(x)是f(x)的原函数):
$\int^b_a f(x)dx = F(b) – F(a) A = ∫ a b f ( x ) d x = F ( b ) − F ( a )$
如果我们无法求得原函数,那么我们就需要通过蒙特卡洛积分法:

首先我们可以在积分区间
${X_1,\cdots,X_N} X 1 , ⋯ , X N ,样本对应的函数值为: f ( X 1 ) , ⋯ , f ( X N ) {f(X_1),\cdots,f(X_N)} f ( X 1 ) , ⋯ , f ( X N )$
然后我们可以求和得到:
$\approx \frac{b-a}{N} \sum^N_{i=1}f(X_i) F ( N ) ≈ N b − a i = 1 ∑ N f ( X i )$

这个方法和黎曼积分非常相似,可以借用黎曼积分的图直观理解:
$\frac{b-a}{N} N b − a 即为我们在曲线中近似的每一个矩形的宽,而 f ( X i ) f(X_i) f ( X i ) 则为每一个矩形的高,所以我们用这个方法算出的 F ( N ) F(N) F ( N ) 就可以作为A的近似值$
这时读者可能有疑问,上面这个方法是不是只能针对均匀分布的数据?如果我在区间上按照概率密度函数

首先按照概率密度函数
$上进行采样得到数据${X_1,\cdots,X_N} $$
再构造新的
$F_N F N 函数: F N = 1 N ∑ i = 1 N f ( X i ) p ( X i ) F_N =\frac{1}{N} \sum^N_{i=1} \frac{f(X_i)}{p(X_i)} F N = N 1 i = 1 ∑ N p ( X i ) f ( X i ) $

定义

通过对蒙特卡洛积分的讲解,我们知道我们可以通过按照函数的分布进行采样求和来近似这个函数.但是现实中往往我们不知道某个函数的分布或者已知某个函数的分布但我们很难按照这个分布采样,那这个时候该怎么办?这时候就要引入我们的重要性采样了.
我们知道
$\int_x f(x)p(x)dx E [ Y ] = ∫ x f ( x ) p ( x ) d x$
因为我们无法直接对分布
$\int_x f(x)p(x)dx = \int_x q(x) \frac{p(x)}{q(x)}f(x)dx E [ Y ] = ∫ x f ( x ) p ( x ) d x = ∫ x q ( x ) q ( x ) p ( x ) f ( x ) d x$
当我们在新的分布
$\frac{1}{N} \sum^N_{i=1} \frac{p(x_i)}{q(x_i)}f(x_i) E [ Y ] = N 1 i = 1 ∑ N q ( x i ) p ( x i ) f ( x i )$
我们可以看作是函数
$\frac{p(x_i)}{q(x_i)}f(x_i) q ( x i ) p ( x i ) f ( x i ) 在分布 q ( x ) q(x) q ( x ) 上的期望.这里 p ( x i ) q ( x i ) \frac{p(x_i)}{q(x_i)} q ( x i ) p ( x i ) 就是重要性权重$