# 总体与样本

总体是研究对象的全体元素组成的集合。研究时,我们将研究的数量指标视为随机变量 (或随机向量)XX。实际上,我们所研究的总体,本质上就是一个概率分布。一般情况下,我们假定总体是无限的或者说极多的。

样本是从总体中抽取的待检个体的集合,样本容量是样本包含的个体数目。当样本不确定时,容量为 nn 的样本可以看作一个 nn 维随机向量,当样本抽取确定后,得到的是一个样本的观察值,也就是 nn 个数。样本空间是样本所有可能取值的集合。

# 抽样方法

最常用的抽样方法是简单随机抽样,要求抽取的样本满足代表性随机性。具体指的是诸 XiX_i 与总体 XX 具有相同的分布,且诸 XiX_i 相互独立。

在实践中,我们可以采用抽签法、随机数表法、分层抽样等方法实现简单随机抽样。

# 样本的分布

若总体的概率密度函数和分布函数依次为f(x)f(x)F(x)F(x), 则根据样本独立同分布,得到样本 (X1,,Xn)(X_1,\dots,X_n) 的密度函数 f(x1,,xn)=i=1nf(xi)f(x_1,\dots,x_n) = \prod_{i=1}^nf(x_i), 联合分布函数为 F(x1,,xn)=i=1nF(xi)F(x_1,\dots,x_n) = \prod_{i=1}^nF(x_i).

# 经验分布函数

x1,x2,,xnx_1,x_2,\dots,x_n 是取自总体分布函数为 F(x)F(x) 的样本,若将样本观测值由小到大进行排列,为 x(1),x(2),,x(n)x_{(1)},x_{(2)},\dots,x_{(n)}, 则 x(1),x(2),,x(n)x_{(1)},x_{(2)},\dots,x_{(n)} 称为有序样本,用有序样本定义如下函数

Fn(x)={0,x<x(1)k/n,x(k)x<x(k+1)1,x>x(n)F_n(x) = \left\{\begin{matrix} 0,\quad & x<x_{(1)}\quad\quad\quad\;\,\,\, \\ k/n, &x_{(k)}\leq x < x_{(k+1)} \\ 1,\quad & x>x_{(n)}\quad\quad\quad\;\,\,\, \end{matrix}\right.

于是 Fn(x)F_n(x) 是不减的右连续函数,且 F()=0F(-\infty) = 0, F(+)=1F(+\infty) = 1, 于是Fn(x)F_n(x) 是一个分布函数,称为经验分布函数 (empirical distribution function)。

对固定的 nn, Fn(x)F_n(x) 是一个随机变量。根据伯努利大数定律,在nn 充分大时,Fn(x)F_n(x) 依概率收敛于F(x)F(x), 即点收敛于F(x)F(x)。更深刻地,我们根据格里文科定理 (Glivenko theorem),可以说明Fn(x)F_n(x)一致收敛F(x)F(x) 的。

定理 (格里文科定理) 设x1,x2,,xnx_1,x_2,\dots,x_n 是取自总体分布函数F(x)F(x) 的样本,Fn(x)F_n(x) 是其经验分布函数,当nn \to \infty 时,有

P{sup<x<+Fn(x)F(x)0}=1.P\left\{\sup_{-\infty<x<+\infty}|F_n(x) - F(x)| \to 0 \right\} = 1.

格里文科定理说明经验分布函数Fn(x)F_n(x) 是总体分布函数F(x)F(x) 的良好近似,于是我们以样本为基础进行的推断是合理的。

# 统计量及其分布

# 定义

X1,,XnX_1,\dots,X_n 是从总体中抽取的容量为nn 的一个样本,如果由此样本构造一个函数T(X1,,Xn)T(X_1,\dots,X_n) 不依赖于任何未知参数,则称函数T(X1,,Xn)T(X_1,\dots,X_n) 是一个统计量,其分布称为抽样分布。换句话说,统计量是完全由样本决定的量。若获得了一组样本的值x1,,xnx_1,\dots,x_n, 那么称T(x1,,xn)T(x_1,\dots,x_n) 是该统计量的一个观测值。例如,Xˉ=1ni=1nXi\bar{X} = \tfrac{1}{n}\sum_{i=1}^nX_i 是一个统计量,而i=1n(Xi𝔼X)2\sum_{i=1}^n(X_i - 𝔼X)^2 不是一个统计量,它依赖于总体分布的参数𝔼X𝔼X

下面,我们关注几个常见的统计量。

# 样本均值

# 定义

X1,,XnX_1,\dots,X_n 是从总体中抽取的容量为 nn 的一个样本,则其算术平均值 Xˉ:=1ni=1nXi\bar X := \tfrac{1}{n}\sum_{i=1}^nX_i 称为样本均值

# 性质

性质 1 称样本数据与样本均值的差为偏差,则样本的所有偏差之和为零,即 i=1n(xixˉ)=0\sum_{i=1}^n(x_i-\bar x) = 0.

性质 2 样本所有偏差的平方和最小,即 xˉ=arg min(xix)2\bar x = \argmin (x_i - x)^2.

性质 3X1,X2,,XnX_1,X_2,\dots,X_n 为一组样本,其样本均值为 Xˉ\bar X. 若总体分布为 N(μ,σ2)N(\mu,\sigma^2), 则 Xˉ\bar X 的精确分布为 N(μ,σ2/n)N(\mu,\sigma^2/n). 若总体分布不为正态分布,但 EX=μ\mathbb{E}X = \mu, DX=σ2\mathbb{D}X = \sigma^2, 则 nn 较大时 Xˉ\bar X 的渐近分布为 N(μ,σ2)N(\mu,\sigma^2), 记作 Xˉ˙N(μ,σ2)\bar X \dot{\sim} N(\mu,\sigma^2).

证明

# 样本方差

# 统计三大分布

# χ2\chi^2 分布

χ2\chi^2 分布是三大统计分布中最基本的分布,表示多个独立同分布的变量的分布。

# 定义

X1,X2,,XnX_1,X_2,\dots,X_n 独立同分布于 N(0,1)N(0,1), 则 X2=i=1nXi2X^2 = \sum_{i=1}^n X_i^2 称为自由度为 nnχ2\chi^2 分布,记作 X2χ2(n)X^2\sim\chi^2(n).

# 特点

χ2\chi^2 分布是伽马分布的特殊形式。

# 假设检验

# 基本概念

# 参数检验和非参数检验

假设检验可以分为非参数假设检验参数假设检验总体分布已知时,只对总体的位置参数进行假设,对此做出的检验称为参数假设检验;总体分布未知时,对总体分布的类型进行假设,对此做出的检验称为非参数假设检验。

我们下面讨论的检验几乎都为参数检验。

# 原假设和备择假设

在假设检验中,我们称被检验的假设为原假设,其对立命题称为对立假设 (或备择假设)。

# 参数检验的统计量

在一个假设检验中,我们使用的统计量称为检验统计量。使得原假设接受的样本域称为接受域,使原假设被否定的样本域称为拒绝域。接受域与拒绝域之间的分界称为检验统计量的临界值

# 功效函数

若总体分布包含若干未知参数θ1,θ2,,θk\theta_1,\theta_2,\dots,\theta_k, H0H_0 是关于这些参数的一个原假设。设现有样本X1,X2,,XnX_1,X_2,\dots,X_n, Φ\Phi 是基于样本对H0H_0 的一个检验,那么我们称检验Φ\Phi功效函数βΦ(θ1,θ2,,θk)=Pθ1,θ2,,θk(H1)\beta_\Phi(\theta_1,\theta_2,\dots,\theta_k) = ℙ_{\theta_1,\theta_2,\dots,\theta_k}(H_1), 其中Pθ1,θ2,,θk(H1)ℙ_{\theta_1,\theta_2,\dots,\theta_k}(H_1) 表示在检验Φ\Phi 下否定H0H_0 的概率。

# 假设检验的两类错误

# 第一类错误

原假设H0H_0 为真,但由于样本随机性,样本错误落入拒绝域较多,使得错误地做出拒绝H0H_0 的判断,称为第一类错误。其犯错误的概率称为犯第一类错误的概率,即显著性水平α\alpha

# 第二类错误

原假设H0H_0 为假,但由于样本随机性,样本错误落入接受域较多,使得错误地做出接受H0H_0 的判断,称为第二类错误。其犯错误的概率称为犯第二类错误的概率,记作β\beta

我们评价检验法则即希望犯两类错误的概率都较小。

# 正态总体参数假设检验

# 单正态总体

# 方差分析

方差分析是在多因素的影响下,评价某一因素对结果的影响是否明显的方式。在这一思路上,我们将数据按此因素分成几组,在每一组内我们假设其余因素的影响是随机的。因此可以看作一个正态分布。这样,我们可以计算得到组间方差SAS_A 和组内方差SeS_e。组内方差SeS_e 是自由度为nrn-rχ2\chi^2 分布 (需标准化),组间方差SAS_A 是自由度为r1r-1χ2\chi^2 分布 (同样需标准化),因此以F=SA/(nr)Se/(r1)F(nr,r1)\displaystyle F=\frac{S_A/(n-r)}{S_e/(r-1)}\sim F(n-r,r-1)。我们可以借此估计。这就是方差分析的基本内容。

# 回归分析

回归分析和相关分析一样,都致力于描述随机变量之间的关系。但回归分析着重在寻求变量之间近似的函数关系,相关分析则不着重这种关系,而致力于寻求一些数量性的指标,以刻画有关变量之间关系深浅的程度

假设一个问题中有因变量YY 及自变量X1,X2,,XnX_1,X_2,\dots,X_n, 随机误差设为ε\varepsilon, 于是有Y=f(X1,X2,,Xn)+εY = f(X_1,X_2,\dots,X_n) + \varepsilon。作为随机误差,我们设𝔼ε=0𝔼\varepsilon = 0。于是在给定自变量的值X1,X2,,XnX_1,X_2,\dots,X_n 后,因变量YY 的期望值为𝔼(YX1,X2,,Xn)=f(X1,X2,,Xn)=+yp(yX1,X2,,Xn)dy𝔼(Y|X_1,X_2,\dots,X_n)=f(X_1,X_2,\dots,X_n) = \int_{-\infty}^{+\infty}yp(y|X_1,X_2,\dots,X_n) \mathrm dy。此时,我们称函数f(x1,x2,,xn)f(x_1,x_2,\dots,x_n)回归函数,称方程y=f(x1,x2,,xn)y = f(x_1,x_2,\dots,x_n)回归方程

值得注意的是,在一元回归分析中,我们认为自变量XX可控的,而随机变量ε\varepsilon 是不可控的随机变量。我们希望做到的是排除随机变量ε\varepsilon 的影响,研究YYXX 可能的变化关系。

# 一元线性回归分析

一元线性回归分析的模型为y^=β0+β1x\hat{y} = \beta_0 + \beta_1x。我们需要做的是,求参数β0,β1\beta_0,\,\beta_1, 使得偏差的平方和Q(β0,β1)=i=1n(yiβ0β1x)2Q(\beta_0,\beta_1) = \sum_{i=1}^n(y_i-\beta_0-\beta_1x)^2 取最小值。这样得到的β0^,β1^\hat{\beta_0},\,\hat{\beta_1} 称为对β0,β1\beta_0,\,\beta_1最小二乘估计,记作 LSE
(Least Square Estimation)。

# 高斯 - 马尔可夫定理

在线性回归模型中,若误差εi,i\varepsilon_i,\,\forall i 满足𝔼εi=0𝔼\varepsilon_i = 0(零均值),𝔻εi=σ2𝔻\varepsilon_i = \sigma^2(同方差),且cov(εi,εj)=0,ij\textbf{cov}(\varepsilon_i, \varepsilon_j)=0,\,\forall i\neq j(不相关),于是β^1=xiyinxˉyˉxi2nxˉ2=cov(x,y)σx2,β^0=yˉβ^1xˉ\hat\beta_1 = \frac{\sum x_iy_i-n\bar x\bar y}{\sum x_i^2 - n\bar x^2} = \frac{\textbf{cov}(x,y)}{\sigma_x^2},\,\hat\beta_0 = \bar y-\hat\beta_1 \bar x 是对β1\beta_1β0\beta_0最佳无偏估计 (BLUE, best linear unbiased estimator),即在所有可能的线性无偏估计量中具有最小的方差。我们称此结论为高斯 - 马尔可夫定理 (Gauss-Markov Theorem)。

# 线性回归的显著性检验

# F 检验

# t 检验

# 相关系数检验