本篇笔记中,重点放在讨论与一元线性回归模型中不同的部分,以及在基本的数理统计中未引入的概念、方法和思想。
# 概念
多元的总体线性回归模型一般采用 表示,样本线性回归模型采用 表示,其中 表示残差 (residuals). 样本容量一般记作.
# 样本容量问题
多元回归分析的第一个问题是样本容量问题。即,需要建立一个可靠的回归模型,存在样本容量的下限。
在无多重共线性要求下,样本最小容量必须不少于模型中解释变量
的数目 (含常数项)。即. 在统计检验的角度, 时可以应用 检验; 时, 分布较稳定。
# 统计检验
# 调整的可决系数
一般的可决系数定义同一元线性回归模型。但根据经验可知:如果在模型中增加一个解释变量, 往往增大。因此,引入调整的可决系数 (adjusted coefficient of determination)
以提出变量个数对拟合优度产生的影响。其中, 是残差平方和的自由度, 是总体平方和的自由度。 的标准采用 检验确定。
# 赤池信息准则
赤池信息准则 (Akaike information criterion, AIC) 定义
当且仅当增加解释变量可以使 增加时,才考虑增加解释变量。
# 施瓦茨准则
施瓦茨准则 (Schwarz criterion, SC) 定义
当且仅当增加解释变量可以使 增加时,才考虑增加解释变量。