# 总体与样本
总体是研究对象的全体元素组成的集合。研究时,我们将研究的数量指标视为随机变量 (或随机向量)X。实际上,我们所研究的总体,本质上就是一个概率分布。一般情况下,我们假定总体是无限的或者说极多的。
样本是从总体中抽取的待检个体的集合,样本容量是样本包含的个体数目。当样本不确定时,容量为 n 的样本可以看作一个 n 维随机向量,当样本抽取确定后,得到的是一个样本的观察值,也就是 n 个数。样本空间是样本所有可能取值的集合。
# 抽样方法
最常用的抽样方法是简单随机抽样,要求抽取的样本满足代表性和随机性。具体指的是诸 Xi 与总体 X 具有相同的分布,且诸 Xi 相互独立。
在实践中,我们可以采用抽签法、随机数表法、分层抽样等方法实现简单随机抽样。
# 样本的分布
若总体的概率密度函数和分布函数依次为f(x) 及F(x), 则根据样本独立同分布,得到样本 (X1,…,Xn) 的密度函数 f(x1,…,xn)=∏i=1nf(xi), 联合分布函数为 F(x1,…,xn)=∏i=1nF(xi).
# 经验分布函数
设 x1,x2,…,xn 是取自总体分布函数为 F(x) 的样本,若将样本观测值由小到大进行排列,为 x(1),x(2),…,x(n), 则 x(1),x(2),…,x(n) 称为有序样本,用有序样本定义如下函数
Fn(x)=⎩⎪⎨⎪⎧0,k/n,1,x<x(1)x(k)≤x<x(k+1)x>x(n)
于是 Fn(x) 是不减的右连续函数,且 F(−∞)=0, F(+∞)=1, 于是Fn(x) 是一个分布函数,称为经验分布函数 (empirical distribution function)。
对固定的 n, Fn(x) 是一个随机变量。根据伯努利大数定律,在n 充分大时,Fn(x) 依概率收敛于F(x), 即点收敛于F(x)。更深刻地,我们根据格里文科定理 (Glivenko theorem),可以说明Fn(x) 是一致收敛于F(x) 的。
定理 (格里文科定理) 设x1,x2,…,xn 是取自总体分布函数F(x) 的样本,Fn(x) 是其经验分布函数,当n→∞ 时,有
P{−∞<x<+∞sup∣Fn(x)−F(x)∣→0}=1.
格里文科定理说明经验分布函数Fn(x) 是总体分布函数F(x) 的良好近似,于是我们以样本为基础进行的推断是合理的。
# 统计量及其分布
# 定义
设X1,…,Xn 是从总体中抽取的容量为n 的一个样本,如果由此样本构造一个函数T(X1,…,Xn) 不依赖于任何未知参数,则称函数T(X1,…,Xn) 是一个统计量,其分布称为抽样分布。换句话说,统计量是完全由样本决定的量。若获得了一组样本的值x1,…,xn, 那么称T(x1,…,xn) 是该统计量的一个观测值。例如,Xˉ=n1∑i=1nXi 是一个统计量,而∑i=1n(Xi−EX)2 不是一个统计量,它依赖于总体分布的参数EX。
下面,我们关注几个常见的统计量。
# 样本均值
# 定义
设 X1,…,Xn 是从总体中抽取的容量为 n 的一个样本,则其算术平均值 Xˉ:=n1∑i=1nXi 称为样本均值。
# 性质
性质 1 称样本数据与样本均值的差为偏差,则样本的所有偏差之和为零,即 ∑i=1n(xi−xˉ)=0.
性质 2 样本所有偏差的平方和最小,即 xˉ=argmin(xi−x)2.
性质 3 设 X1,X2,…,Xn 为一组样本,其样本均值为 Xˉ. 若总体分布为 N(μ,σ2), 则 Xˉ 的精确分布为 N(μ,σ2/n). 若总体分布不为正态分布,但 EX=μ, DX=σ2, 则 n 较大时 Xˉ 的渐近分布为 N(μ,σ2), 记作 Xˉ∼˙N(μ,σ2).
证明
# 样本方差
# 统计三大分布
# χ2 分布
χ2 分布是三大统计分布中最基本的分布,表示多个独立同分布的变量和的分布。
# 定义
若 X1,X2,…,Xn 独立同分布于 N(0,1), 则 X2=∑i=1nXi2 称为自由度为 n 的 χ2 分布,记作 X2∼χ2(n).
# 特点
χ2 分布是伽马分布的特殊形式。
# 假设检验
# 基本概念
# 参数检验和非参数检验
假设检验可以分为非参数假设检验和参数假设检验。总体分布已知时,只对总体的位置参数进行假设,对此做出的检验称为参数假设检验;总体分布未知时,对总体分布的类型进行假设,对此做出的检验称为非参数假设检验。
我们下面讨论的检验几乎都为参数检验。
# 原假设和备择假设
在假设检验中,我们称被检验的假设为原假设,其对立命题称为对立假设 (或备择假设)。
# 参数检验的统计量
在一个假设检验中,我们使用的统计量称为检验统计量。使得原假设接受的样本域称为接受域,使原假设被否定的样本域称为拒绝域。接受域与拒绝域之间的分界称为检验统计量的临界值。
# 功效函数
若总体分布包含若干未知参数θ1,θ2,…,θk, H0 是关于这些参数的一个原假设。设现有样本X1,X2,…,Xn, Φ 是基于样本对H0 的一个检验,那么我们称检验Φ 的功效函数为βΦ(θ1,θ2,…,θk)=Pθ1,θ2,…,θk(H1), 其中Pθ1,θ2,…,θk(H1) 表示在检验Φ 下否定H0 的概率。
# 假设检验的两类错误
# 第一类错误
原假设H0 为真,但由于样本随机性,样本错误落入拒绝域较多,使得错误地做出拒绝H0 的判断,称为第一类错误。其犯错误的概率称为犯第一类错误的概率,即显著性水平α。
# 第二类错误
原假设H0 为假,但由于样本随机性,样本错误落入接受域较多,使得错误地做出接受H0 的判断,称为第二类错误。其犯错误的概率称为犯第二类错误的概率,记作β。
我们评价检验法则即希望犯两类错误的概率都较小。
# 正态总体参数假设检验
# 单正态总体
# 方差分析
方差分析是在多因素的影响下,评价某一因素对结果的影响是否明显的方式。在这一思路上,我们将数据按此因素分成几组,在每一组内我们假设其余因素的影响是随机的。因此可以看作一个正态分布。这样,我们可以计算得到组间方差SA 和组内方差Se。组内方差Se 是自由度为n−r 的χ2 分布 (需标准化),组间方差SA 是自由度为r−1 的χ2 分布 (同样需标准化),因此以F=Se/(r−1)SA/(n−r)∼F(n−r,r−1)。我们可以借此估计。这就是方差分析的基本内容。
# 回归分析
回归分析和相关分析一样,都致力于描述随机变量之间的关系。但回归分析着重在寻求变量之间近似的函数关系,相关分析则不着重这种关系,而致力于寻求一些数量性的指标,以刻画有关变量之间关系深浅的程度。
假设一个问题中有因变量Y 及自变量X1,X2,…,Xn, 随机误差设为ε, 于是有Y=f(X1,X2,…,Xn)+ε。作为随机误差,我们设Eε=0。于是在给定自变量的值X1,X2,…,Xn 后,因变量Y 的期望值为E(Y∣X1,X2,…,Xn)=f(X1,X2,…,Xn)=∫−∞+∞yp(y∣X1,X2,…,Xn)dy。此时,我们称函数f(x1,x2,…,xn) 为回归函数,称方程y=f(x1,x2,…,xn) 为回归方程。
值得注意的是,在一元回归分析中,我们认为自变量X 是可控的,而随机变量ε 是不可控的随机变量。我们希望做到的是排除随机变量ε 的影响,研究Y 随X 可能的变化关系。
# 一元线性回归分析
一元线性回归分析的模型为y^=β0+β1x。我们需要做的是,求参数β0,β1, 使得偏差的平方和Q(β0,β1)=∑i=1n(yi−β0−β1x)2 取最小值。这样得到的β0^,β1^ 称为对β0,β1 的最小二乘估计,记作 LSE
(Least Square Estimation)。
# 高斯 - 马尔可夫定理
在线性回归模型中,若误差εi,∀i 满足Eεi=0(零均值),Dεi=σ2(同方差),且cov(εi,εj)=0,∀i=j(不相关),于是β^1=∑xi2−nxˉ2∑xiyi−nxˉyˉ=σx2cov(x,y),β^0=yˉ−β^1xˉ 是对β1 和β0 的最佳无偏估计 (BLUE, best linear unbiased estimator),即在所有可能的线性无偏估计量中具有最小的方差。我们称此结论为高斯 - 马尔可夫定理 (Gauss-Markov Theorem)。
# 线性回归的显著性检验
# F 检验
# t 检验
# 相关系数检验