Cox-Box变换

在

《回归分析的基本假设》

中提到了回归分析中的基本假设.这里的Box-Cox变换方法能够解决回归模型中的误差项不服从高斯分布的违例问题.通常这种违例情况出现在，误差

$\epsilon$
与预测变量相关的时候，会影响模型结果的精确度.简单的方法就是通过对

$X$
进行变换，如

\begin{matrix} (1) & \begin{aligned} y & = \sqrt{x} \\ y & = \frac{1}{x} \\ y & = \frac{1}{\sqrt{x}} \\ y & = l n (x) \end{aligned} \end{matrix}

$\begin{equation}\begin{split} y &= \sqrt{x} \\ y &= \frac{1}{x}\\ y &= \frac{1}{\sqrt{x}}\\ y &= ln(x) \end{split}\end{equation}$

当P值小于0.003时，由于普通数据转换方法很难使其实现正态化处理，运用Box-Cox变换方法对原数据进行正态化处理就表现出巨大的价值.当P值大于0.003时，两种变换方法均可，但优先考虑普通的平方变换.

Box-Cox变换是对反应变量y进行变换

y λ = {y λ - 1 λ, log (y), λ \neq 0 λ = 0

$y^\lambda= \begin{cases} \frac{y^\lambda-1}{\lambda}, &\lambda \neq 0\\ \log(y), &\lambda = 0 \end{cases}$

可以看出，y的Box-Cox变换是一个变换族.

$\lambda$
能够决定变换的具体形式.同时上式有暗含的条件即

y

>

0

0

$y>0$
.对于任意取值，则应该改为

y λ = ⎧ ⎩ ⎨ ( y + c ) λ - 1 g λ, log ( y + c ) g, λ \neq 0 λ = 0

$y^\lambda = \begin{cases} \frac{(y+c)^\lambda-1}{g\lambda}, &\lambda \neq 0\\ \frac{\log(y+c)}{g}, &\lambda = 0 \end{cases}$

方法优势

$\lambda$
值的确定

通过最大似然估计或者Bayes方法.

使用Box-Cox变换族一般都可以保证将数据进行成功的正态变换，但在二分变量或较少水平的等级变量的情况下，不能成功进行转换，这时可以使用广义线性模型，如Logustics模型、Johnson转换等.