本篇笔记中,重点放在讨论与一元线性回归模型中不同的部分,以及在基本的数理统计中未引入的概念、方法和思想。

# 概念

多元的总体线性回归模型一般采用Y=βX+μY = \beta X + \mu 表示,样本线性回归模型采用Y=β^X+eY = \hat{\beta}X + \boldsymbol{e} 表示,其中e\boldsymbol{e} 表示残差 (residuals). 样本容量一般记作nn.

# 样本容量问题

多元回归分析的第一个问题是样本容量问题。即,需要建立一个可靠的回归模型,存在样本容量的下限。

在无多重共线性要求下,样本最小容量必须不少于模型中解释变量
的数目 (含常数项)。即nk+1=rankXn \geq k+1=\mathrm{rank}\,X. 在统计检验的角度,n>30n>30 时可以应用ZZ 检验;nk8n-k \geq 8 时,tt 分布较稳定。

# 统计检验

# 调整的可决系数

一般的可决系数定义同一元线性回归模型。但根据经验可知:如果在模型中增加一个解释变量,R2R^2 往往增大。因此,引入调整的可决系数 (adjusted coefficient of determination)

Rˉ2:=1RSS/(nk1)TSS/(n1)\bar{R}^2:=1-\frac{RSS/(n-k-1)}{TSS/(n-1)}

以提出变量个数对拟合优度产生的影响。其中,(nk1)(n-k-1) 是残差平方和的自由度,(n1)(n-1) 是总体平方和的自由度。Rˉ2\bar{R}^2 的标准采用 FF 检验确定。

# 赤池信息准则

赤池信息准则 (Akaike information criterion, AIC) 定义

AIC:=lneen+2(k+1)nAIC:=\ln\frac{\boldsymbol{e}^\top\boldsymbol{e}}{n} + \frac{2(k+1)}{n}

当且仅当增加解释变量可以使AICAIC 增加时,才考虑增加解释变量。

# 施瓦茨准则

施瓦茨准则 (Schwarz criterion, SC) 定义

SC:=lneen+knlnnSC := \ln\frac{\boldsymbol{e}^\top\boldsymbol{e}}{n} + \frac{k}{n}\ln n

当且仅当增加解释变量可以使SCSC 增加时,才考虑增加解释变量。