# 基本概念

# 相关分析与回归分析

相关分析 (correlation analysis) 是研究两个或多个随机变量间相关关系的方法，各变量之间的地位等价。

回归分析 (regression analysis) 是研究一个变量关于另一个（些）变量的具体依赖关系的计算方法和理论。这里的前一个变量称为被解释变量 (explained variable) 或应变量 (dependent variable), 后一个变量称为解释变量 (explanatory variable) 或自变量 (independent variable).

需要注意的是：回归分析研究的是变量间的统计依赖关系，而不是因果相关关系。

# 总体回归和样本回归

在给定解释变量 $X_i$ 条件下被解释变量 $Y_i$ 的期望轨迹称为总体回归线 (population regression line), 或更一般地称为总体回归曲线 (population regression curve). 相应的函数 $E(Y|X_i) = f(X_i)$ 称为（双变量）总体回归函数 (population regression function, PRF).

总体回归描述的是大量样本在自变量取值条件下的因变量期望。如果希望估计某个样本的因变量取值，那么还需要加入随机扰动项 (stochastic disturbance), 来描述其余次要因素影响产生的偏差。

因此，对于系列样本 $\{(X_i,Y_i)\}$ , 其拟合得到的回归曲线为样本回归线 (sample regression lines), 相应的函数 $\hat{Y}_i = f(X_i) = \hat{\beta_0} + \hat{\beta_1}X_i$ 称为样本回归函数 (sample regression function, SRF). 此时加入随机误差项的方程称为样本回归模型 (sample regression model).

# 参数估计

参数估计和假设检验是统计学中统计推断的两个基本方式。在计量经济学中，同样采用这两个基本方式对模型进行估计。

# 线性回归模型的基本假设

在计量经济学中，为保证参数估计量具有良好性质，通常对模型提出若干假设：

解释变量 $X$ 是确定性变量，不是随机变量
随机误差项 $\mu$ 具有零均值、同方差和不序列相关性，即

$\mathbb{E}(\mu_i) = 0, \quad i=1,2,\dots,n$

$\mathbb{D}(\mu_i) = \sigma_\mu^2, \quad i=1,2,\dots,n$

$\text{cov}(\mu_i,\mu_j) = 0, \quad i \neq j, i,j =1,2,\dots,n$

随机误差项 $\mu$ 与解释变量 $X$ 之间不相关，即

$\text{cov}(\mu_i, X_i) = 0$

$\mu$ 服从零均值、同方差、零协方差的正态分布

# 统计检验

统计检验正要包括拟合优度检验、变量的显著性检验，及参数的区间估计。

# 拟合优度检验

注意到对总体平方和 $TSS:=\sum(Y_i-\bar Y)^2$ , 回归平方和 $ESS=\sum(\hat Y_i-\bar{Y})^2$ 及残差平方和 $RSS=\sum(Y_i-\hat Y_i)^2$ , 有 $TSS=ESS+RSS$ . 因此定义拟合优度为 $ESS/TSS$ , 定义 (样本) 可决系数 (coefficient of determination) 为

$R^2 := \frac{ESS}{TSS} = 1-\frac{RSS}{TSS}$

$R^2$ 越接近 $1$ , 说明实际观测点离样本线越近，拟合优度越高。显然，这里的 $R$ 就是皮尔逊相关系数。

# 变量的显著性检验

变量的显著性检验用来检验其中一个自变量对因变量是否存在显著的线性性影响。采用假设检验方式进行实现。这与数理统计中的内容相同，不再赘述。

# 参数的置信区间

参数的区间估计与数理统计中的区间估计相同。