东北大学应用数理统计第五章知识点总结——线性回归模型

  • Post author:
  • Post category:其他

线性回归模型

一、线性模型理论

1.1 定义

y

=

β

0

+

i

=

1

k

f

i

(

x

1

,

,

x

m

)

β

i

+

ε

,

ε

N

(

0

,

σ

2

)

y = \beta_0 + \sum_{i=1}^{k}f_i(x_1,···,x_m)\beta_i + \varepsilon, \varepsilon \Leftrightarrow N(0, \sigma^2)

y=β0+i=1kfi(x1,,xm)βi+ε,εN(0,σ2)

  • “线性”是针对未知参数

    β

    \beta

    β 而言,许多表面上的非线性模型本质也是线性的

  • E

    y

    =

    β

    0

    +

    x

    1

    β

    1

    +

    .

    .

    .

    +

    x

    k

    β

    k

    Ey = \beta_0 + x_1\beta_1 + … + x_k\beta_k

    Ey=β0+x1β1+...+xkβk ,

    [

    x

    ]

    [x]

    [x] 是自变量,

    y

    y

    y 是因变量

  • y

    =

    β

    0

    +

    x

    1

    β

    1

    +

    .

    .

    .

    +

    x

    k

    β

    k

    +

    ε

    ,

    E

    ε

    =

    0

    y = \beta_0 + x_1\beta_1 + … + x_k\beta_k + \varepsilon, E\varepsilon = 0

    y=β0+x1β1+...+xkβk+ε,Eε=0

1.2 参数的估计

Y

=

X

β

+

ε

Y = X\beta + \varepsilon

Y=Xβ+ε
1、未知参数

β

\beta

β 的估计:最小二乘估计(LSE)

  • Y

    X

    β

    ^

    2

    =

    i

    n

    f

    Y

    X

    β

    2

    ,

    β

    R

    k

    +

    1

    ||Y-X\hat{\beta}||^2 = inf||Y-X\beta||^2,\beta \in R^{k+1}

    YXβ^2=infYXβ2,βRk+1

  • 求解思路:平方和分解

    Y

    X

    β

    2

    =

    Y

    X

    β

    ^

    2

    +

    X

    (

    β

    ^

    β

    )

    2

    +

    2

    (

    β

    ^

    β

    )

    T

    X

    T

    (

    Y

    X

    β

    ^

    )

    ||Y-X\beta||^2 = ||Y-X\hat{\beta}||^2 + ||X(\hat{\beta} – \beta)||^2 + 2(\hat{\beta} – \beta)^T X^T (Y-X\hat{\beta})

    YXβ2=YXβ^2+X(β^β)2+2(β^β)TXT(YXβ^)

    2

    (

    β

    ^

    β

    )

    T

    X

    T

    (

    Y

    X

    β

    ^

    )

    =

    0

    2(\hat{\beta} – \beta)^T X^T (Y-X\hat{\beta}) = 0

    2(β^β)TXT(YXβ^)=0

  • 正规方程:

    (

    X

    T

    X

    )

    β

    ^

    =

    X

    T

    Y

    (X^TX)\hat{\beta} = X^TY

    (XTX)β^=XTY

    β

    ^

    =

    (

    X

    T

    X

    )

    1

    X

    T

    Y

    =

    S

    1

    X

    T

    Y

    \hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY

    β^=(XTX)1XTY=S1XTY

  • 经验回归函数:

    X

    β

    ^

    X\hat{\beta}

    Xβ^

  • 经验回归方程:

    Y

    =

    X

    β

    ^

    Y = X\hat{\beta}

    Y=Xβ^

2、误差方差

σ

2

\sigma^2

σ2 的估计

y

i

=

β

0

+

β

1

x

i

1

+

.

.

.

+

β

k

x

i

k

+

ε

i

,

1

i

n

y_i = \beta_0 + \beta_1x_{i1} + … + \beta_kx_{ik} + \varepsilon_i,1\le i\le n

yi=β0+β1xi1+...+βkxik+εi,1in

  • 残差

    e

    i

    =

    y

    i

    β

    0

    ^

    +

    β

    1

    ^

    x

    i

    1

    +

    .

    .

    .

    +

    β

    k

    ^

    x

    i

    k

    e_i = y_i – \hat{\beta_0} + \hat{\beta_1}x_{i1} + … + \hat{\beta_k}x_{ik}

    ei=yiβ0^+β1^xi1+...+βk^xik

  • 残差平方和

    Q

    e

    =

    e

    1

    2

    +

    e

    2

    2

    +

    .

    .

    .

    +

    e

    n

    2

    =

    Y

    X

    β

    ^

    2

    =

    Y

    T

    (

    I

    n

    X

    S

    1

    X

    T

    )

    Y

    Q_e = e_1^2 + e_2^2 + … + e_n^2 = ||Y-X\hat{\beta}||^2 = Y^T(I_n – XS^{-1}X^T)Y

    Qe=e12+e22+...+en2=YXβ^2=YT(InXS1XT)Y

3、线性模型的最小二乘估计

  • β

    \beta

    β

    L

    S

    E

    LSE

    LSE

    β

    ^

    =

    (

    X

    T

    X

    )

    1

    X

    T

    Y

    =

    S

    1

    X

    T

    Y

    \hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY

    β^=(XTX)1XTY=S1XTY

  • σ

    2

    \sigma^2

    σ2

    L

    S

    E

    LSE

    LSE

    σ

    ^

    2

    =

    1

    n

    k

    1

    Y

    T

    (

    I

    n

    X

    S

    1

    X

    T

    )

    Y

    \hat{\sigma}^2 = \frac{1}{n-k-1}Y^T(I_n – XS^{-1}X^T)Y

    σ^2=nk11YT(InXS1XT)Y

4、最小二乘估计的无偏性质

  • E

    (

    Y

    T

    A

    Y

    )

    =

    (

    E

    Y

    )

    T

    A

    (

    E

    Y

    )

    +

    t

    r

    {

    A

    [

    V

    a

    r

    (

    Y

    )

    ]

    }

    E(Y^TAY) = (EY)^TA(EY) + tr\{A[Var(Y)]\}

    E(YTAY)=(EY)TA(EY)+tr{A[Var(Y)]}

  • E

    Y

    =

    X

    β

    ,

    V

    a

    r

    (

    Y

    )

    =

    σ

    2

    I

    n

    EY=X\beta, Var(Y) = \sigma^2I_n

    EY=Xβ,Var(Y)=σ2In

  • β

    ^

    =

    (

    X

    T

    X

    )

    1

    X

    T

    Y

    \hat{\beta} = (X^TX)^{-1}X^TY

    β^=(XTX)1XTY 是无偏估计

  • 残差平方和的数学期望是:

    E

    (

    Q

    e

    )

    =

    (

    n

    k

    1

    )

    σ

    2

    E(Q_e) = (n-k-1) \sigma^2

    E(Qe)=(nk1)σ2

1.3 估计量的分布

  • β

    ^

    =

    S

    1

    X

    T

    Y

    \hat{\beta} = S^{-1}X^TY

    β^=S1XTY ~

    N

    (

    β

    ,

    σ

    2

    S

    1

    )

    N(\beta, \sigma^2S^{-1})

    N(β,σ2S1)

  • n

    k

    1

    σ

    2

    σ

    ^

    2

    =

    1

    σ

    2

    Y

    T

    (

    I

    n

    X

    S

    1

    X

    T

    )

    Y

    \frac{n-k-1}{\sigma^2}\hat{\sigma}^2 = \frac{1}{\sigma^2}Y^T(I_n – XS^{-1}X^T)Y

    σ2nk1σ^2=σ21YT(InXS1XT)Y ~

    χ

    2

    (

    n

    k

    1

    )

    \chi^2(n-k-1)

    χ2(nk1)

  • β

    ^

    \hat{\beta}

    β^

    σ

    ^

    2

    \hat{\sigma}^2

    σ^2 相互独立

二、一元回归与相关分析

1.1 定义

1、回归分析:研究一个(或多个)自变量的变化如何影响因变量。
2、相关分析:研究这两个数值变量的相关程度。
3、回归方程

y

=

β

0

+

x

1

β

1

+

.

.

.

+

x

k

β

k

y = \beta_0 + x_1\beta_1 + … + x_k\beta_k

y=β0+x1β1+...+xkβk

1.2 一元线性回归模型

y

i

=

β

0

+

β

1

x

i

+

ε

i

,
     

1

i

n

y_i = \beta_0 + \beta_1x_i + \varepsilon_i, \,\,\,\,\, 1 \le i \le n

yi=β0+β1xi+εi,1in

  • β

    0

    ^

    =

    y

    β

    1

    ^

    x

    \hat{\beta_0} = \overline{y} – \hat{\beta_1}\overline{x}

    β0^=yβ1^x

  • β

    1

    ^

    =

    L

    x

    y

    L

    x

    x

    \hat{\beta_1} = \frac{L_{xy}}{L_{xx}}

    β1^=LxxLxy

  • σ

    ^

    2

    =

    1

    n

    2

    (

    L

    y

    y

    β

    1

    ^

    L

    x

    y

    )

    \hat{\sigma}^2 = \frac{1}{n-2}(L_{yy} – \hat{\beta_1}L_{xy})

    σ^2=n21(Lyyβ1^Lxy)

1.2 简单的相关分析

T

S

S

=

R

e

g

S

S

+

R

S

S

TSS = RegSS + RSS

TSS=RegSS+RSS

  • 总(变差)平方和

    T

    S

    S

    =

    i

    =

    1

    n

    (

    y

    i

    y

    )

    2

    TSS = \sum_{i=1}^n(y_i – \overline{y})^2

    TSS=i=1n(yiy)2

  • 回归平方和

    R

    e

    g

    S

    S

    =

    i

    =

    1

    n

    (

    y

    i

    ^

    y

    )

    2

    RegSS = \sum_{i=1}^n(\hat{y_i} – \overline{y})^2

    RegSS=i=1n(yi^y)2

  • 残差平方和

    R

    S

    S

    =

    i

    =

    1

    n

    (

    y

    i

    y

    i

    ^

    )

    2

    RSS = \sum_{i=1}^n(y_i – \hat{y_i})^2

    RSS=i=1n(yiyi^)2

  • 相关系数

    r

    r

    r

    r

    2

    =

    R

    e

    g

    S

    S

    T

    S

    S

    =

    L

    x

    y

    2

    L

    x

    x

    L

    y

    y

    r^2 = \frac{RegSS}{TSS} = \frac{L_{xy}^2}{L_{xx}L_{yy}}

    r2=TSSRegSS=LxxLyyLxy2

1.3 回归方程的检验与区间估计

1、回归系数的假设检验

  • H

    0

    :

    β

    1

    =

    0

    H_0: \beta_1 = 0

    H0:β1=0

  • β

    0

    ^

    \hat{\beta_0}

    β0^ ~

    N

    (

    β

    0

    ,

    σ

    2

    (

    1

    n

    +

    x

    2

    L

    x

    x

    )

    )

    N(\beta_0, \sigma^2(\frac{1}{n} + \frac{\overline{x}^2}{L_{xx}}))

    N(β0,σ2(n1+Lxxx2))

  • β

    1

    ^

    \hat{\beta_1}

    β1^ ~

    N

    (

    β

    1

    ,

    σ

    2

    L

    x

    x

    )

    N(\beta_1, \frac{\sigma^2}{L_{xx}})

    N(β1,Lxxσ2)

  • β

    0

    ^

    \hat{\beta_0}

    β0^

    β

    1

    ^

    \hat{\beta_1}

    β1^不独立,协方差为

    C

    o

    v

    (

    β

    0

    ^

    ,

    β

    1

    ^

    )

    =

    σ

    2

    x

    L

    x

    x

    Cov(\hat{\beta_0}, \hat{\beta_1}) = -\sigma^2 \frac{\overline{x}}{L_{xx}}

    Cov(β0^,β1^)=σ2Lxxx

  • σ

    2

    \sigma^2

    σ2

    β

    0

    ^

    \hat{\beta_0}

    β0^

    β

    1

    ^

    \hat{\beta_1}

    β1^都独立,并且

    n

    2

    σ

    2

    σ

    ^

    2

    χ

    2

    (

    n

    2

    )

    \frac{n-2}{\sigma^2} \hat{\sigma}^2 \Leftrightarrow \chi^2(n-2)

    σ2n2σ^2χ2(n2)

  • 要检验回归关系是否显著,可以利用

    t

    t

    t 分布

    β

    1

    ^

    σ

    ^

    i

    =

    1

    n

    (

    x

    i

    x

    )

    2

    t

    (

    n

    2

    )

    \frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2)

    σ^β1^i=1n(xix)2
    t(n2)

  • 更多的是采用

    β

    1

    ^

    σ

    ^

    L

    x

    x

    F

    (

    1

    ,

    n

    2

    )

    (

    n

    2

    )

    L

    x

    y

    2

    L

    x

    x

    L

    y

    y

    L

    x

    y

    2

    \frac{\hat{\beta_1}}{\hat{\sigma}}L_{xx} \Leftrightarrow F(1,n-2) \Leftrightarrow \frac{(n-2)L_{xy}^2}{L_{xx}L_{yy} – L_{xy}^2}

    σ^β1^LxxF(1,n2)LxxLyyLxy2(n2)Lxy2

  • 否定域

    F

    =

    (

    n

    2

    )

    r

    2

    (

    1

    r

    2

    )

    >

    F

    0.05

    (

    1

    ,

    n

    2

    )

    F = \frac{(n-2)r^2}{(1-r^2)} > F_{0.05}(1,n-2)

    F=(1r2)(n2)r2>F0.05(1,n2)

2、回归系数的区间估计

β

1

^

σ

^

i

=

1

n

(

x

i

x

)

2

t

(

n

2

)

\frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2)

σ^β1^i=1n(xix)2
t(n2)

β

1

^

σ

^

i

=

1

n

(

x

i

x

)

2

t

α

/

2

(

n

2

)

β

1

^

+

σ

^

i

=

1

n

(

x

i

x

)

2

t

α

/

2

(

n

2

)

\hat{\beta_1} – \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2) —— \hat{\beta_1} + \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2)

β1^i=1n(xix)2
σ^
tα/2(n
2)β1^+i=1n(xix)2
σ^
tα/2(n
2)

1.4 回归方程的预测与控制

1、回归方程的预测

y

0

y

0

N

(

0

,

σ

2

[

1

+

1

n

+

(

x

0

x

)

2

i

=

1

n

(

x

i

x

)

2

]

)

y_0 – y_0^* \Leftrightarrow N(0, \sigma^2[1 + \frac{1}{n} + \frac{(x_0 – \overline{x} )^2}{\sum_{i=1}^n (x_i – \overline{x})^2}])

y0y0N(0,σ2[1+n1+i=1n(xix)2(x0x)2])

β

0

^

+

β

1

x

0

h

^

β

0

^

+

β

1

x

0

+

h

^

\hat{\beta_0} + \hat{\beta_1 x_0 – h}——\hat{\beta_0} + \hat{\beta_1 x_0 + h}

β0^+β1x0h^β0^+β1x0+h^

h

=

t

α

/

2

(

n

2

)

σ

^

1

+

1

n

+

(

x

0

x

)

2

i

=

1

n

(

x

i

x

)

2

h = t_{\alpha/2}(n-2)\hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_0 – \overline{x} )^2}{\sum_{i=1}^n (x_i – \overline{x})^2}}

h=tα/2(n2)σ^1+n1+i=1n(xix)2(x0x)2

2、回归方程的控制

  • 上述方程与下两个方程同时成立:

    A

    y

    0

    h
          

    y

    0

    +

    h

    B

    A \le y_0^* – h \,\,\,\,\,\, y_0^* + h \le B

    Ay0hy0+hB

3、注意

  • 实际问题中回归模型的建立要依赖于专业知识,并且注意散点图的使用
  • 即使回归模型通过了检验也只能认为所研究的变量是统计相关的
  • 回归分析一般需要与相关分析结合起来
  • 异方差性、序列相关性、多重共线性问题

三、多元回归分析

1.1 未知参数的估计

  • 同上

1.2 回归模型的检验

  • H

    0

    :

    β

    1

    =

    β

    2

    =

    .

    .

    .

    =

    β

    k

    =

    0

    H_0: \beta_1 = \beta_2 = … = \beta_k = 0

    H0:β1=β2=...=βk=0

    T

    S

    S

    =

    i

    =

    1

    n

    (

    y

    i

    y

    )

    2

    ,

    R

    e

    g

    S

    S

    =

    i

    =

    1

    n

    (

    y

    i

    ^

    y

    )

    2

    ,

    R

    S

    S

    =

    i

    =

    1

    n

    (

    y

    i

    y

    i

    ^

    )

    2

    TSS = \sum_{i=1}^n(y_i – \overline{y})^2, RegSS = \sum_{i=1}^n(\hat{y_i} – \overline{y})^2,RSS = \sum_{i=1}^n(y_i – \hat{y_i})^2

    TSS=i=1n(yiy)2,RegSS=i=1n(yi^y)2,RSS=i=1n(yiyi^)2

    R

    S

    S

    σ

    2

    χ

    2

    (

    n

    k

    1

    )

    \frac{RSS}{\sigma^2} \Leftrightarrow \chi^2(n-k-1)

    σ2RSSχ2(nk1)

    R

    e

    g

    S

    S

    σ

    2

    χ

    2

    (

    k

    )

    \frac{RegSS}{\sigma^2} \Leftrightarrow \chi^2(k)

    σ2RegSSχ2(k)

    F

    =

    n

    k

    1

    k

    R

    e

    g

    S

    S

    R

    S

    S

    F

    (

    k

    ,

    n

    k

    1

    )

    F = \frac{n-k-1}{k} \frac{RegSS}{RSS} \leftrightarrow F(k, n-k-1)

    F=knk1RSSRegSSF(k,nk1)

1.3 回归因子的挑选

  • 逐步回归的想法:

    H

    0

    i

    β

    i

    =

    0

    H

    1

    i

    :

    β

    i

    0

    H_{0i}: \beta_i = 0 \Leftrightarrow H_{1i}: \beta_i ≠ 0

    H0iβi=0H1i:βi=0

  • t

    t

    t 检验,自由度

    n

    k

    1

    n – k – 1

    nk1

    T

    i

    =

    β

    i

    ^

    c

    i

    i

    σ

    ^

    T_i = \frac{\hat{\beta_i}}{\sqrt{c_{ii}}\hat{\sigma}}

    Ti=cii
    σ^
    βi^

  • F

    F

    F 检验

    F

    i

    =

    β

    i

    ^

    2

    c

    i

    i

    σ

    ^

    2

    F_i = \frac{\hat{\beta_i}^2}{c_{ii}\hat{\sigma}^2}

    Fi=ciiσ^2βi^2


版权声明:本文为qq_36770651原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。