东北大学应用数理统计第五章知识点总结——线性回归模型

线性回归模型

一、线性模型理论

1.1 定义

∑

(

⋅

)

⇔

(

)

y = \beta_0 + \sum_{i=1}^{k}f_i(x_1,···,x_m)\beta_i + \varepsilon, \varepsilon \Leftrightarrow N(0, \sigma^2)

$y = β_{0} + i = 1 \sum k f_{i} (x_{1}, \cdot \cdot \cdot, x_{m}) β_{i} + ε, ε \Leftrightarrow N (0, σ^{2})$

“线性”是针对未知参数 $\beta β 而言，许多表面上的非线性模型本质也是线性的$
$\beta_0 + x_1\beta_1 + … + x_k\beta_k Ey=β0+x1β1+...+xkβk , [ x ] [x] [x] 是自变量， y y y 是因变量$
$\beta_0 + x_1\beta_1 + … + x_k\beta_k + \varepsilon, E\varepsilon = 0 y=β0+x1β1+...+xkβk+ε,Eε=0$

1.2 参数的估计

Y = X\beta + \varepsilon

$Y = X β + ε$
1、未知参数

β

\beta

$β$ 的估计：最小二乘估计（LSE）

$||Y-X\hat{\beta}||^2 = inf||Y-X\beta||^2,\beta \in R^{k+1} ∣∣Y−Xβ^∣∣2=inf∣∣Y−Xβ∣∣2,β∈Rk+1$
求解思路：平方和分解
$||Y-X\beta||^2 = ||Y-X\hat{\beta}||^2 + ||X(\hat{\beta} – \beta)||^2 + 2(\hat{\beta} – \beta)^T X^T (Y-X\hat{\beta}) ∣∣Y−Xβ∣∣2=∣∣Y−Xβ^∣∣2+∣∣X(β^−β)∣∣2+2(β^−β)TXT(Y−Xβ^) 2 ( β ^ − β ) T X T ( Y − X β ^ ) = 0 2(\hat{\beta} – \beta)^T X^T (Y-X\hat{\beta}) = 0 2(β^−β)TXT(Y−Xβ^)=0$
正规方程： $(X^TX)\hat{\beta} = X^TY (XTX)β^=XTY β ^ = ( X T X ) − 1 X T Y = S − 1 X T Y \hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY β^=(XTX)−1XTY=S−1XTY$
经验回归函数： $X\hat{\beta} Xβ^$
经验回归方程： $X\hat{\beta} Y=Xβ^$

2、误差方差

σ

2

\sigma^2

$σ^{2}$ 的估计

≤

y_i = \beta_0 + \beta_1x_{i1} + … + \beta_kx_{ik} + \varepsilon_i,1\le i\le n

$y_{i} = β_{0} + β_{1} x_{i 1} + . . . + β_{k} x_{i k} + ε_{i}, 1 \leq i \leq n$

残差
$e_i = y_i – \hat{\beta_0} + \hat{\beta_1}x_{i1} + … + \hat{\beta_k}x_{ik} ei=yi−β0^+β1^xi1+...+βk^xik$
残差平方和
$Q_e = e_1^2 + e_2^2 + … + e_n^2 = ||Y-X\hat{\beta}||^2 = Y^T(I_n – XS^{-1}X^T)Y Qe=e12+e22+...+en2=∣∣Y−Xβ^∣∣2=YT(In−XS−1XT)Y$

3、线性模型的最小二乘估计

$\beta β 的 L S E LSE LSE 是 β ^ = ( X T X ) − 1 X T Y = S − 1 X T Y \hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY β^=(XTX)−1XTY=S−1XTY$
$\sigma^2 σ2 的 L S E LSE LSE 是 σ ^ 2 = 1 n − k − 1 Y T ( I n − X S − 1 X T ) Y \hat{\sigma}^2 = \frac{1}{n-k-1}Y^T(I_n – XS^{-1}X^T)Y σ^2=n−k−11YT(In−XS−1XT)Y$

4、最小二乘估计的无偏性质

$E(Y^TAY) = (EY)^TA(EY) + tr\{A[Var(Y)]\} E(YTAY)=(EY)TA(EY)+tr{A[Var(Y)]}$
$EY=X\beta, Var(Y) = \sigma^2I_n EY=Xβ,Var(Y)=σ2In$
$\hat{\beta} = (X^TX)^{-1}X^TY β^=(XTX)−1XTY 是无偏估计$
残差平方和的数学期望是： $E(Q_e) = (n-k-1) \sigma^2 E(Qe)=(n−k−1)σ2$

1.3 估计量的分布

$\hat{\beta} = S^{-1}X^TY β^=S−1XTY ~ N ( β , σ 2 S − 1 ) N(\beta, \sigma^2S^{-1}) N(β,σ2S−1)$
$\frac{n-k-1}{\sigma^2}\hat{\sigma}^2 = \frac{1}{\sigma^2}Y^T(I_n – XS^{-1}X^T)Y σ2n−k−1σ^2=σ21YT(In−XS−1XT)Y ~ χ 2 ( n − k − 1 ) \chi^2(n-k-1) χ2(n−k−1)$
$\hat{\beta} β^ 与 σ ^ 2 \hat{\sigma}^2 σ^2 相互独立$

二、一元回归与相关分析

1.1 定义

1、回归分析：研究一个（或多个）自变量的变化如何影响因变量。
2、相关分析：研究这两个数值变量的相关程度。
3、回归方程

y = \beta_0 + x_1\beta_1 + … + x_k\beta_k

$y = β_{0} + x_{1} β_{1} + . . . + x_{k} β_{k}$

1.2 一元线性回归模型

≤

y_i = \beta_0 + \beta_1x_i + \varepsilon_i, \,\,\,\,\, 1 \le i \le n

$y_{i} = β_{0} + β_{1} x_{i} + ε_{i}, 1 \leq i \leq n$

$\hat{\beta_0} = \overline{y} – \hat{\beta_1}\overline{x} β0^=y−β1^x$
$\hat{\beta_1} = \frac{L_{xy}}{L_{xx}} β1^=LxxLxy$
$\hat{\sigma}^2 = \frac{1}{n-2}(L_{yy} – \hat{\beta_1}L_{xy}) σ^2=n−21(Lyy−β1^Lxy)$

1.2 简单的相关分析

TSS = RegSS + RSS

$T S S = R e g S S + R S S$

总（变差）平方和
$\sum_{i=1}^n(y_i – \overline{y})^2 TSS=i=1∑n(yi−y)2$
回归平方和
$\sum_{i=1}^n(\hat{y_i} – \overline{y})^2 RegSS=i=1∑n(yi^−y)2$
残差平方和
$\sum_{i=1}^n(y_i – \hat{y_i})^2 RSS=i=1∑n(yi−yi^)2$
相关系数
$r$

r

2

=

R

e

g

S

S

T

S

S

=

L

x

y

2

L

x

x

L

y

y

r^2 = \frac{RegSS}{TSS} = \frac{L_{xy}^2}{L_{xx}L_{yy}}

$r^{2} = \frac{R e g S S}{T S S} = \frac{L _{x y}^{2}}{L _{x x} L _{y y}}$

1.3 回归方程的检验与区间估计

1、回归系数的假设检验

$H_0: \beta_1 = 0 H0:β1=0$
$\hat{\beta_0} β0^ ~ N ( β 0 , σ 2 ( 1 n + x ‾ 2 L x x ) ) N(\beta_0, \sigma^2(\frac{1}{n} + \frac{\overline{x}^2}{L_{xx}})) N(β0,σ2(n1+Lxxx2))$
$\hat{\beta_1} β1^ ~ N ( β 1 , σ 2 L x x ) N(\beta_1, \frac{\sigma^2}{L_{xx}}) N(β1,Lxxσ2)$
$\hat{\beta_0} β0^与 β 1 ^ \hat{\beta_1} β1^不独立，协方差为 C o v ( β 0 ^ , β 1 ^ ) = − σ 2 x ‾ L x x Cov(\hat{\beta_0}, \hat{\beta_1}) = -\sigma^2 \frac{\overline{x}}{L_{xx}} Cov(β0^,β1^)=−σ2Lxxx$
$\sigma^2 σ2与 β 0 ^ \hat{\beta_0} β0^和 β 1 ^ \hat{\beta_1} β1^都独立，并且 n − 2 σ 2 σ ^ 2 ⇔ χ 2 ( n − 2 ) \frac{n-2}{\sigma^2} \hat{\sigma}^2 \Leftrightarrow \chi^2(n-2) σ2n−2σ^2⇔χ2(n−2)$
要检验回归关系是否显著，可以利用 $\frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2) σ^β1^i=1∑n(xi−x)2 ⇔t(n−2)$
更多的是采用
$\frac{\hat{\beta_1}}{\hat{\sigma}}L_{xx} \Leftrightarrow F(1,n-2) \Leftrightarrow \frac{(n-2)L_{xy}^2}{L_{xx}L_{yy} – L_{xy}^2} σ^β1^Lxx⇔F(1,n−2)⇔LxxLyy−Lxy2(n−2)Lxy2$
否定域
$\frac{(n-2)r^2}{(1-r^2)} > F_{0.05}(1,n-2) F=(1−r2)(n−2)r2>F0.05(1,n−2)$

2、回归系数的区间估计

∑

(

−

‾

)

⇔

(

−

)

\frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2)

$\frac{β _{1} ^}{σ ^} i = 1 \sum n (x_{i} - \overline{x})^{2} \Leftrightarrow t (n - 2)$

−

∑

(

−

‾

)

(

−

)

—

∑

(

−

‾

)

(

−

)

\hat{\beta_1} – \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2) —— \hat{\beta_1} + \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2)

$\hat{β_{1}} - \frac{σ ^}{\sum _{i = 1}^{n} ( x _{i} - x ) ^{2}} t_{α / 2} (n - 2) — — \hat{β_{1}} + \frac{σ ^}{\sum _{i = 1}^{n} ( x _{i} - x ) ^{2}} t_{α / 2} (n - 2)$

1.4 回归方程的预测与控制

1、回归方程的预测

−

∗

⇔

(

[

(

−

‾

)

∑

(

−

‾

)

]

)

y_0 – y_0^* \Leftrightarrow N(0, \sigma^2[1 + \frac{1}{n} + \frac{(x_0 – \overline{x} )^2}{\sum_{i=1}^n (x_i – \overline{x})^2}])

$y_{0} - y_{0}^{*} \Leftrightarrow N (0, σ^{2} [1 + \frac{1}{n} + \frac{( x _{0} - x ) ^{2}}{\sum _{i = 1}^{n} ( x _{i} - x ) ^{2}}])$

−

—

\hat{\beta_0} + \hat{\beta_1 x_0 – h}——\hat{\beta_0} + \hat{\beta_1 x_0 + h}

$\hat{β_{0}} + \hat{β_{1} x_{0} - h} — — \hat{β_{0}} + \hat{β_{1} x_{0} + h}$

(

−

)

(

−

‾

)

∑

(

−

‾

)

h = t_{\alpha/2}(n-2)\hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_0 – \overline{x} )^2}{\sum_{i=1}^n (x_i – \overline{x})^2}}

$h = t_{α / 2} (n - 2) \overset{σ}{^} 1 + \frac{1}{n} + \frac{( x _{0} - x ) ^{2}}{\sum _{i = 1}^{n} ( x _{i} - x ) ^{2}}$
2、回归方程的控制

上述方程与下两个方程同时成立：
$\le y_0^* – h \,\,\,\,\,\, y_0^* + h \le B A≤y0∗−hy0∗+h≤B$

3、注意

实际问题中回归模型的建立要依赖于专业知识，并且注意散点图的使用
即使回归模型通过了检验也只能认为所研究的变量是统计相关的
回归分析一般需要与相关分析结合起来
异方差性、序列相关性、多重共线性问题

三、多元回归分析

1.1 未知参数的估计

同上

1.2 回归模型的检验

$H_0: \beta_1 = \beta_2 = … = \beta_k = 0 H0:β1=β2=...=βk=0 T S S = ∑ i = 1 n ( y i − y ‾ ) 2 , R e g S S = ∑ i = 1 n ( y i ^ − y ‾ ) 2 , R S S = ∑ i = 1 n ( y i − y i ^ ) 2 TSS = \sum_{i=1}^n(y_i – \overline{y})^2, RegSS = \sum_{i=1}^n(\hat{y_i} – \overline{y})^2,RSS = \sum_{i=1}^n(y_i – \hat{y_i})^2 TSS=i=1∑n(yi−y)2,RegSS=i=1∑n(yi^−y)2,RSS=i=1∑n(yi−yi^)2 R S S σ 2 ⇔ χ 2 ( n − k − 1 ) \frac{RSS}{\sigma^2} \Leftrightarrow \chi^2(n-k-1) σ2RSS⇔χ2(n−k−1) R e g S S σ 2 ⇔ χ 2 ( k ) \frac{RegSS}{\sigma^2} \Leftrightarrow \chi^2(k) σ2RegSS⇔χ2(k) F = n − k − 1 k R e g S S R S S ↔ F ( k , n − k − 1 ) F = \frac{n-k-1}{k} \frac{RegSS}{RSS} \leftrightarrow F(k, n-k-1) F=kn−k−1RSSRegSS↔F(k,n−k−1)$

1.3 回归因子的挑选

逐步回归的想法：
$H_{0i}： \beta_i = 0 \Leftrightarrow H_{1i}: \beta_i ≠ 0 H0i：βi=0⇔H1i:βi=0$
$n - k - 1$

T

i

=

β

i

^

c

i

i

σ

^

T_i = \frac{\hat{\beta_i}}{\sqrt{c_{ii}}\hat{\sigma}}

$T_{i} = \frac{β _{i} ^}{c _{i i} σ ^}$
$F$ 检验

F

i

=

β

i

^

2

c

i

i

σ

^

2

F_i = \frac{\hat{\beta_i}^2}{c_{ii}\hat{\sigma}^2}

$F_{i} = \frac{β _{i} ^ ^{2}}{c _{i i} σ ^ ^{2}}$

原文链接：https://blog.csdn.net/qq_36770651/article/details/110563244

线性回归模型

一、线性模型理论

1.1 定义

1.2 参数的估计

1.3 估计量的分布

二、一元回归与相关分析

1.1 定义

1.2 一元线性回归模型

1.2 简单的相关分析

1.3 回归方程的检验与区间估计

1.4 回归方程的预测与控制

三、多元回归分析

1.1 未知参数的估计

1.2 回归模型的检验

1.3 回归因子的挑选

你可能也喜欢