多元线性回归模型
内容来源
线性回归分析导论 原书第5版 机械工业出版社
模型
假设模型中的误差项 ϵ \epsilon ϵ 有 E ( ϵ ) = 0 E(\epsilon)=0 E(ϵ)=0 , V a r ( ϵ ) = σ 2 Var(\epsilon)=\sigma^2 Var(ϵ)=σ2 且误差是不相关的
y = X β + ϵ y=X\beta+\epsilon y=Xβ+ϵ
其中
y = [ y 1 y 2 ⋮ y n ] , X = [ 1 x 11 x 12 ⋯ x 1 k 1 x 21 x 22 ⋯ x 2 k ⋮ ⋮ ⋮ ⋮ 1 x n 1 x n 2 ⋯ x n k ] , β = [ β 0 β 2 ⋮ β k ] , ϵ = [ ϵ 1 ϵ 2 ⋮ ϵ n ] y= \left[ \begin{matrix} y_1\\y_2\\\vdots\\y_n \end{matrix} \right], X= \left[ \begin{matrix} 1&x_{11}&x_{12}&\cdots&x_{1k}\\ 1&x_{21}&x_{22}&\cdots&x_{2k}\\ \vdots&\vdots&\vdots&&\vdots\\ 1&x_{n1}&x_{n2}&\cdots&x_{nk} \end{matrix} \right], \beta= \left[ \begin{matrix} \beta_0\\\beta_2\\\vdots\\\beta_k \end{matrix} \right], \epsilon= \left[ \begin{matrix} \epsilon_1\\\epsilon_2\\\vdots\\\epsilon_n \end{matrix} \right] y= y1y2⋮yn ,X= 11⋮1x11x21⋮xn1x12x22⋮xn2⋯⋯⋯x1kx2k⋮xnk ,β= β0β2⋮βk ,ϵ= ϵ1ϵ2⋮ϵn
最小二乘估计量 β ^ \hat{\beta} β^
S ( β ) = ( y − X β ) ′ ( y − X β ) = ( y ′ − β ′ X ′ ) ( y − X β ) = y ′ y − β ′ X ′ y − y ′ X β + β ′ X ′ X β \begin{align*} S(\beta)&=(y-X\beta)'(y-X\beta)\\ &=(y'-\beta'X')(y-X\beta)\\ &=y'y-\beta'X'y-y'X\beta+\beta'X'X\beta \end{align*} S(β)=(y−Xβ)′(y−Xβ)=(y′−β′X′)(y−Xβ)=y′y−β′X′y−y′Xβ+β′X′Xβ
中间两项都是 1 × 1 1\times1 1×1 矩阵且互为转置,所以
S ( β ) = y ′ y − 2 β ′ X ′ y + β ′ X ′ X β S(\beta)=y'y-2\beta'X'y+\beta'X'X\beta S(β)=y′y−2β′X′y+β′X′Xβ
求导,得
∂ S ∂ β ∣ β ^ = − 2 X ′ y + 2 X ′ X β = 0 \frac{\partial S}{\partial \beta}\bigg|_{\hat{\beta}}=-2X'y+2X'X\beta=0 ∂β∂S β^=−2X′y+2X′Xβ=0
所以
β ^ = ( X ′ X ) − 1 X ′ y \hat\beta=(X'X)^{-1}X'y β^=(X′X)−1X′y
帽子矩阵
H = X ( X ′ X ) − 1 X ′ H=X(X'X)^{-1}X' H=X(X′X)−1X′
帽子矩阵将观测值向量映射为拟合值向量
y ^ = X β ^ = X ( X ′ X ) − 1 X ′ y = H y \hat{y}=X\hat\beta=X(X'X)^{-1}X'y=Hy y^=Xβ^=X(X′X)−1X′y=Hy
最小二乘估计量的性质
E ( β ^ ) = E [ ( X ′ X ) − 1 X ′ y ] = E [ ( X ′ X ) − 1 X ′ ( X β + ϵ ) ] = E [ ( X ′ X ) − 1 X ′ X β + ( X ′ X ) − 1 X ′ ϵ ] = β \begin{align*} E(\hat\beta)&=E\left[(X'X)^{-1}X'y\right]\\ &=E\left[(X'X)^{-1}X'(X\beta+\epsilon)\right]\\ &=E\left[(X'X)^{-1}X'X\beta+(X'X)^{-1}X'\epsilon\right]\\ &=\beta \end{align*} E(β^)=E[(X′X)−1X′y]=E[(X′X)−1X′(Xβ+ϵ)]=E[(X′X)−1X′Xβ+(X′X)−1X′ϵ]=β
因此,当模型正确时, β ^ \hat\beta β^ 是 β \beta β 的无偏估计量
C o v ( β ^ ) = V a r ( β ^ ) = V a r [ ( X ′ X ) − 1 X ′ y ] \begin{align*} Cov(\hat\beta)&=Var(\hat\beta)\\ &=Var\left[(X'X)^{-1}X'y\right] \end{align*} Cov(β^)=Var(β^)=Var[(X′X)−1X′y]
因为 ( X ′ X ) − 1 X ′ (X'X)^{-1}X' (X′X)−1X′ 为常数矩阵,且 y y y 的方差为 σ 2 I \sigma^2I σ2I ,所以
V a r [ ( X ′ X ) − 1 X ′ y ] = ( X ′ X ) − 1 X ′ V a r ( y ) [ ( X ′ X ) − 1 X ′ ] ′ = σ 2 ( X ′ X ) − 1 X ′ X ( X ′ X ) − 1 = σ 2 ( X ′ X ) − 1 \begin{align*} &Var\left[(X'X)^{-1}X'y\right]\\ &=(X'X)^{-1}X'Var(y)\left[(X'X)^{-1}X'\right]'\\ &=\sigma^2(X'X)^{-1}X'X(X'X)^{-1}\\ &=\sigma^2(X'X)^{-1} \end{align*} Var[(X′X)−1X′y]=(X′X)−1X′Var(y)[(X′X)−1X′]′=σ2(X′X)−1X′X(X′X)−1=σ2(X′X)−1
根据高斯-马尔可夫定理,最小二乘估计量 β ^ \hat\beta β^ 是 β \beta β 的最佳线性无偏估计量
如果进一步假设误差 ϵ \epsilon ϵ 为正态分布,那么 β ^ \hat\beta β^ 也是 β \beta β 的极大似然估计量
σ 2 \sigma^2 σ2 的估计
便于计算残差平方和公式
S S 残 = ∑ i = 1 n ( y i − y ^ i ) 2 = ( y − X β ^ ) ′ ( y − X β ^ ) = y ′ y − 2 β ′ X ′ y + β ′ X ′ X β \begin{align*} SS_{残}&=\sum^n_{i=1}(y_i-\hat{y}_i)^2\\ &=(y-X\hat\beta)'(y-X\hat\beta)\\ &=y'y-2\beta'X'y+\beta'X'X\beta \end{align*} SS残=i=1∑n(yi−y^i)2=(y−Xβ^)′(y−Xβ^)=y′y−2β′X′y+β′X′Xβ
代入 β ^ = ( X ′ X ) − 1 X ′ y \hat\beta=(X'X)^{-1}X'y β^=(X′X)−1X′y ,得
S S 残 = y ′ y − β ^ ′ X ′ y SS_{残}=y'y-\hat{\beta}'X'y SS残=y′y−β^′X′y
通过残差平方和得到 σ 2 \sigma^2 σ2 的估计
S S 残 = ( y − y ^ ) ′ ( y − y ^ ) = [ y − H y ] ′ [ y − H y ] = y ′ [ I − H ] y \begin{align*} SS_{残}&=(y-\hat{y})'(y-\hat{y})\\ &=\left[y-Hy\right]'\left[y-Hy\right]\\ &=y'\left[I-H\right]y \end{align*} SS残=(y−y^)′(y−y^)=[y−Hy]′[y−Hy]=y′[I−H]y
根据定义,可以验证 [ I − H ] \left[I-H\right] [I−H] 是对称幂等的,所以
S S 残 σ 2 ∼ χ 2 ( n − k − 1 ) \frac{SS_{残}}{\sigma^2}\sim\chi^2(n-k-1) σ2SS残∼χ2(n−k−1)
书上就这么写的,看了半天自己加了个假设才有点头绪
如果认为误差项 ϵ \epsilon ϵ 服从正态分布,可以推得残差也服从正态分布,即
e = y − y ^ = ( I − H ) y = ( I − H ) ( X β − ϵ ) = ( I − H ) ϵ e=y-\hat y=(I-H)y=(I-H)(X\beta-\epsilon)=(I-H)\epsilon e=y−y^=(I−H)y=(I−H)(Xβ−ϵ)=(I−H)ϵ
所以 e ∼ N n − k − 1 ( 0 , σ 2 ( I − H ) ) e\sim N_{n-k-1}(0,\sigma^2(I-H)) e∼Nn−k−1(0,σ2(I−H)) ,然后根据卡方分布与正态分布的关系可得出上面的结论
(回到书上)那么残差均方的期望为
E ( M S 残 ) = E ( S S 残 n − k − 1 ) = σ 2 E\left(MS_{残}\right)=E\left(\frac{SS_{残}}{n-k-1}\right)=\sigma^2 E(MS残)=E(n−k−1SS残)=σ2