# 统计推断概述

统计学的基本任务是利用样本数据推断总体分布,即统计推断。统计推断包括两个最基本的部分,即统计估计假设检验

统计估计的目的是借助样本数据,估计总体分布的部分特征,例如总体分布的均值、方差等特征量,总体分布函数的参数值等。根据估计方式的不同,统计估计可以分为参数估计非参数估计。参数估计是将总体分布表示为有限多个参数的模型

假设检验的目的是检验各种统计命题的真伪,例如分析统计估计中得到的参数的正确性 (即正确的概率是多少)。

# 参数估计

参数估计中的参数指的是分布中所含有的某参数或其函数,以及分布的特征数等。估计的形式包括点估计区间估计两种。

在参数估计中,包括两个主要的问题:一是如何进行估计,而是对给出的估计如何评价,即估计的好坏标准问题。

# 点估计

点估计指的是对于含有一些参数 θ1,,θk\theta_1,\dots,\theta_k 的某个函数 f(x1,,xn)f(x_1,\dots,x_n), 希望估计参数 θ1\theta_1, 于是根据某统计量 θ^=θ^(x1,,xn)\hat \theta = \hat \theta(x_1,\dots,x_n). 对于给定的一组样本 x1,,xnx_1,\dots,x_n, 可以得到一个估计值 θ^1\hat \theta_1. 这样采用一个数轴上的点进行估计的方法称为点估计

最常见的点估计方法是矩法极大似然估计法

# 矩法

矩估计指的是采用样本矩替换总体矩,采用样本矩的函数替换总体矩的函数的方法。其实质是采用经验分布函数估计总体分布函数。

矩估计的优点在于简单直接,但有时矩估计不是唯一的。例如对指数分布 f(x)=λeλx,x>0f(x) = \lambda e^{-\lambda x},\,x>0, 根据样本均值 (一阶矩) 估计有 1λ=xˉ\tfrac{1}{\lambda} = \bar x, 即 λ=1xˉ\lambda = \tfrac{1}{\bar x}; 根据样本方差 (二阶矩) 估计有 1λ2=D(X)\tfrac{1}{\lambda^2} = D(X). 若两者不等,则产生矛盾。我们一般采用低阶矩进行估计。

# 极大似然估计法

# 离散情况

设总体 XX 是随机变量,概率函数为 P(X=ai)=P(ai;θ1,θ2,,θk),i=1,2,P(X = a_i) = P(a_i;\theta_1,\theta_2,\dots,\theta_k),\,i = 1,2,\dots, 其中 θ=(θ1,θ2,,θk)\boldsymbol{\theta} = (\theta_1,\theta_2,\dots,\theta_k) 是待估计的未知参数,属于参数空间 Θ\Theta. 假设样本 X1,X2,,XnX_1,X_2,\dots,X_n 来自总体 XX, 观测值为 x1,x2,,xnx_1,x_2,\dots,x_n, 于是我们称

L(θ1,θ2,,θk):=i=1nP(xi;θ1,θ2,,θk)L(\theta_1,\theta_2,\dots,\theta_k) := \prod_{i=1}^n P(x_i;\theta_1,\theta_2,\dots,\theta_k)

似然函数。于是

(θ^1,θ^2,,θ^k)=arg maxL(θ1,θ2,,θk)(\hat\theta_1,\hat\theta_2,\dots,\hat\theta_k) = \argmax L(\theta_1,\theta_2,\dots,\theta_k)

由于似然函数为概率函数的乘积,求其极值点比较困难,于是我们考虑求其单调变换的函数 lnL(θ1,θ2,,θk)\ln L(\theta_1,\theta_2,\dots,\theta_k) 的极值点,即

(θ^1,θ^2,,θ^k)=arg maxlnL(θ1,θ2,,θk)(\hat\theta_1,\hat\theta_2,\dots,\hat\theta_k) = \argmax \ln L(\theta_1,\theta_2,\dots,\theta_k)

# 连续情况

类似地,对连续型总体,设其密度函数为 f(x;θ1,θ2,,θk)f(x;\theta_1,\theta_2,\dots,\theta_k), 其中 θ=(θ1,θ2,,θk)\boldsymbol{\theta} = (\theta_1,\theta_2,\dots,\theta_k) 是待估计的未知参数,则称

L(θ1,θ2,,θk):=i=1nf(xi;θ1,θ2,,θk)L(\theta_1,\theta_2,\dots,\theta_k) := \prod_{i=1}^n f(x_i;\theta_1,\theta_2,\dots,\theta_k)

似然函数。似然函数对应的最值求法和离散型总体是一样的。

# 不变性

极大似然估计具有不变性。即若 θ^\hat\thetaθ\theta 的极大似然估计,那么对任意函数 gg, g(θ^)g(\hat\theta) 都是 g(θ)g(\theta) 的极大似然估计。

# 点估计的优良性准则

# 无偏性

设某统计总体包含未知参数 θ\boldsymbol{\theta}, X\boldsymbol{X} 是从该总体中抽出的样本。若对任何可能的 θ\boldsymbol{\theta}, 都有

Eθ^g^(X)=g(X;θ)E_{\hat{\boldsymbol{\theta}}}\,\hat g(\boldsymbol{X}) = g(\boldsymbol{X}; \boldsymbol{\theta})

那么我们称 g^\hat gg(θ1,θ2,,θk)g(\theta_1,\theta_2,\dots,\theta_k) 的一个无偏估计量。

无偏估计不一定存在

# 有效性

# 相合性

# 区间估计

# 定义

点估计指的是采用一个值 θ^\hat \theta 估计参数 θ\theta, 而区间估计则需要给出两个估计量 θ^1=θ^1(X1,X2,,Xn)\hat \theta_1 = \hat \theta_1(X_1,X_2,\dots,X_n)θ^2=θ^2(X1,X2,,Xn)\hat \theta_2 = \hat \theta_2(X_1,X_2,\dots,X_n) 估计,考虑区间 [θ^1,θ^2][\hat \theta_1, \hat \theta_2] 覆盖 θ\theta 的可靠性。

在区间估计中,我们一般有两个要求:一是 θ\theta 要有极大可能在区间 [θ^1,θ^2][\hat \theta_1,\hat \theta_2] 内,即 P{θ^1θθ^2}\mathbb{P}\{\hat\theta_1\leq \theta \leq \hat\theta_2\} 尽可能大。二是使估计尽可能准确,也就是使得区间长度 θ^2θ^1\hat \theta_2 - \hat \theta_1 尽可能小。可以看到,这是一个 trade-off.

定义设总体的分布函数 F(x;θ)F(x;\theta) 含有一个未知参数 θ\theta, X1,X2,,XnX_1,X_2,\dots,X_n 是总体 XX 的一个样本,对给定的很小的值 α(0,1)\alpha\in(0,1), 若存在两个估计量 θ^1=θ^1(X1,X2,,Xn)\hat \theta_1 = \hat \theta_1(X_1,X_2,\dots,X_n)θ^2=θ^2(X1,X2,,Xn)\hat \theta_2 = \hat \theta_2(X_1,X_2,\dots,X_n), 使得 P{θ^1θθ^2}=1α\mathbb{P}\{\hat\theta_1\leq \theta \leq \hat\theta_2\} = 1-\alpha, θΘ\forall \theta \in \Theta. 那么我们称区间 [θ^1,θ^2][\hat \theta_1, \hat \theta_2]置信系数1α1-\alpha, 随机区间 [θ^1,θ^2][\hat \theta_1, \hat \theta_2]θ\theta双侧置信区间θ^1\hat \theta_1θ^2\hat \theta_2 称为双侧置信下限双侧置信上限。若取 θ^1=\hat\theta_1 = -\inftyθ^2=+\hat \theta_2 = +\infty, 那么我们称其为单侧置信区间。类似可以定义单侧置信上 ()

# 枢轴变量法

我们一般如此求解置信区间:

  1. 选择未知参数 θ\theta 的一个良好的点估计
  2. 构造函数 H(θ^,θ)H(\hat \theta,\theta), 使得 H(θ^,θ)H(\hat \theta,\theta) 的分布是完全已知的,而且与 θ\theta 无关,通常称这种函数为枢轴变量
  3. 适当选取两个常数 c1c_1c2c_2, 使得对给定的 α\alpha, 有 P(c1H(θ^,θ)c2)=1αP(c_1 \leq H(\hat \theta, \theta)\leq c_2) = 1-\alpha. 我们常选取HH 的上下α/2\alpha/2 分位数。
  4. 将不等式 c1H(θ^,θ)c2c_1 \leq H(\hat \theta, \theta)\leq c_2 等价变形为 θ^1θθ^2\hat\theta_1 \leq \theta \leq\hat\theta_2, 得到置信区间 [θ^1,θ^2][\hat \theta_1, \hat\theta_2].

一般情况下,我们总是对正态分布进行区间估计。首先,记uβu_\beta 为标准正态分布N(0,1)N(0,1) 的上β\beta 分位数,即Φ(uβ)=1β\Phi(u_\beta) = 1-\beta.

X1,X2,,XnX_1,X_2,\dots,X_n 是正态分布总体 N(μ,σ2)N(\mu,\sigma^2) 的样本,σ2\sigma^2 已知,希望求 μ\mu 的区间估计。

# 求解