# 数学期望

# 定义

我们采用数学期望 (mathematical expectation) 来表示随机变量在所有取值可能下的加权平均值,定义为

Exxp(x)\mathbb{E} \coloneqq \sum_{x}xp(x)

更严谨地,我们可以写成

E(x)+xdF(x)\mathbb{E}(x) \coloneqq \int_{-\infty}^{+\infty}x\mathrm dF(x)

其中 F(x)F(x)xx 的分布函数。在连续的情况下,我们采用

E(x)=+xp(x)dx\mathbb{E}(x) = \int_{-\infty}^{+\infty}xp(x)\mathrm dx

进行计算。

# 性质

性质 1 (有界性) 若 aXba \leq X \leq b, 则 aEXba \leq\mathbb{E}X\leq b.

性质 2 (线性性) E(aX+bY)=aEX+bEY\mathbb{E}(aX+bY) = a\mathbb{E}X + b\mathbb{E}Y.

# 方差与协方差

# 定义

我们称

DXE(XEX)2\mathbb{D}X \coloneqq \mathbb{E}(X-\mathbb{E}X)^2

是随机变量 XX方差 (variance), 称

cov(X,Y)E((XEX)(YEY))\text{cov}(X,Y) \coloneqq \mathbb{E}\big((X-\mathbb{E}X)(Y-\mathbb{E}Y)\big)

为随机变量 XXYY协方差 (covariance).

# 性质

性质 1 方差 DX\mathbb{D}X 非负。

性质 2 D(aX+b)=a2DX\mathbb{D}(aX + b) = a^2\mathbb{D}X.

性质 3 D(X±Y)=DX+DY±2E((XEX)(YEY))=DX+DY±2cov(X,Y)\mathbb{D}(X \pm Y) = \mathbb{D}X + \mathbb{D}Y ± 2\mathbb{E}\left((X-\mathbb{E}X)(Y-\mathbb{E}Y)\right) = \mathbb{D}X + \mathbb{D}Y \pm 2\text{cov}(X,Y)

性质 4cEXc ≠ \mathbb{E}X, 则 DX<E(Xc)2\mathbb{D}X < \mathbb{E}(X-c)^2.

这个性质说明随机变量和数学期望间的离散程度最小。

D(i=1naiXi+c)\mathbb{D}\big(\sum_{i=1}^na_iX_i + c\big).

D(i=1naiXi+c)=D(i=1naiXi)=i=1nai2E(XiEXi)2+2aiaj1i<jnE(XiEXi)(XjEXj)=i=1nai2DXi+2aiaj1i<jncov(Xi,Xj)=(a1,,an)Σ(a1,,an)\begin{aligned} \mathbb{D}\big(\sum_{i=1}^na_iX_i + c\big) & = \mathbb{D}\big(\sum_{i=1}^na_iX_i\big) \\ & = \sum_{i=1}^na_i^2\mathbb{E}(X_i - \mathbb{E}X_i)^2 + 2a_ia_j\sum_{1≤i<j≤n}\mathbb{E}(X_i-\mathbb{E}X_i)(X_j-\mathbb{E}X_j) \\ & = \sum_{i=1}^na_i^2\mathbb{D}X_i+ 2a_ia_j\sum_{1≤i<j≤n}\text{cov}(X_i,X_j) \\ &= (a_1,\dots,a_n) \varSigma\,(a_1,\dots,a_n)' \end{aligned}

# 协方差矩阵

我们称 Σ=(σij)n\varSigma = (\sigma_{ij})_n协方差矩阵 (covariance matrix).

# 性质

注意到,D(i=1naiXi)\mathbb{D}\big(\sum_{i=1}^na_iX_i\big) 可以写成一个关于 a1,,ana_1,…,a_n 的一个半正定二次型,其对应的矩阵记为 Σ\varSigma, 我们将 DXi\mathbb{D}X_i 记作 σii\sigma_{ii}, 将 cov(Xi,Xj)\text{cov}(X_i,X_j) 记作 σij\sigma_{ij}. 于是,协方差矩阵是半正定的。

# 相关系数和相关性

我们称

ρXY=cov(X,Y)DXDY\rho _{XY} = \frac{\text{cov}(X,Y)}{\sqrt{\mathbb{D}X}\sqrt{\mathbb{D}Y}}

XXYY相关系数,它可以用来刻画 XXYY线性相关关系

  • ρXY>0\rho_{XY}>0, 则 XXYY 正相关
  • ρXY<0\rho_{XY}<0, 则 XXYY 负相关
  • ρXY=0\rho_{XY}=0, 则 XXYY 不相关

ρXY|ρ_{XY}| 越大,XXYY 的线性相关程度越高。

值得注意的是,相关系数刻画的是线性相关关系,不相关不能证明两变量独立。例如取点集 {(x,cosx)}\{(x, \cos x)\}, 其中 x[π,π]x \in [-\pi, \pi], 那么可以计算出 σx,cosx=0\sigma_{x, \cos x} = 0. 而它们显然是不独立的。又如,XN(0,1)X\sim N(0,1), Y=X2Y = X^2, 则 XXYY 不相关,但不独立。

# Cauchy-Schwarz 不等式

定理 对任意两个随机变量 XXYY, 有

(EXY)2EX2EY2(\mathbb{E}XY)^2 \leq \mathbb{E}X^2 \cdot \mathbb{E}Y^2

等式成立当且仅当

P{Y=t0X}=1P\{Y = t_0X\} = 1

其中 t0t_0 为常数。

构造二次函数

u(t)=E(tXY)2=t2EX22tEXY+EY20u(t) = \mathbb{E}(tX - Y)^2 = t^2\mathbb{E}X^2 - 2t\mathbb{E}XY + \mathbb{E}Y^2 \geq 0

则判别式

Δ=4(EXY)24EX2EY20\Delta =4(\mathbb{E}XY)^2 - 4\mathbb{E}X^2\mathbb{E}Y^2 \leq 0

于是 (EXY)2EX2EY2(\mathbb{E}XY)^2 \leq \mathbb{E}X^2 \cdot \mathbb{E}Y^2. 存在重根 t0t_0 时, E(t0XY)2=0\mathbb{E}(t_0X - Y)^2 = 0, 于是 D(t0XY)=E(t0XY)=0\mathbb{D}(t_0X - Y) = \mathbb{E}(t_0X - Y) = 0, 则 P{Y=t0X}=1P\{Y = t_0X\} = 1.

充分性显然。

根据 Cauchy-Schwarz 不等式,我们容易得到 ρ1|\rho|\leq 1. 若 ρ=1\rho = 1, 则我们称随机变量 XXYY 完全正相关,若 ρ=1\rho = -1, 则我们称随机变量 XXYY 完全负相关

性质对两个不相关的变量 XXYY, 我们容易证明其满足以下性质:

# 矩 & 矩母函数

# 定义

# 原点矩 & 中心距

XX 为随机变量,kk 为正整数.如果下述的数学期望都存在,则称

μkE(Xk)\mu_k \coloneqq \mathbb{E}(X^k)

XXkk原点矩。称

νkE(XEX)k\nu_k \coloneqq \mathbb{E}(X-\mathbb{E}X)^k

XXkk中心矩

# 偏度 & 峰度

设随机变量 XX 的前三阶矩存在,则比值

βS=ν3ν23/2\beta_S = \frac{\nu_3}{\nu_2^{3/2}}

称为 XX偏度系数,简称偏度.当 βS>0\beta_S > 0 时,称该分布为正偏,又称右偏;当 βS<0\beta_S < 0 时,称该分布为负偏,又称左偏

# 矩母函数

随机变量 XX矩母函数 ϕ(t)\phi(t) 对所有值 tt 定义为

ϕ(t)=EetX\phi(t) = \mathbb{E}e^{tX}

即若 XX 为离散随机变量,则

ϕ(x)=xetxp(x)\phi(x) = \sum_{x}e^{tx}p(x)

XX 为连续随机变量,则

ϕ(x)=+etxf(x)dx\phi(x) = \int_{-\infty}^{+\infty}e^{tx}f(x) \mathrm dx

# 性质

性质 ϕ(t)\phi(t)nn 阶导数在 t=0t=0 处的值为 XXnn 阶矩。即

ϕ(n)(0)=EXn,n1\phi^{(n)}(0) = \mathbb{E}X^n, \; n \geq 1

证明 采用数学归纳法即可。

# 常见分布的矩母函数

# 二项分布

假设二项分布的量参数为nnpp,则

ϕ(t)=k=0netk(nk)pk(1p)nk=(pet+1p)n\phi(t) = \sum_{k=0}^n e^{tk} \binom{n}{k}p^k(1-p)^{n-k} = (pe^t+1-p)^n

# 泊松分布

假设泊松分布的参数为 λ\lambda, 则

ϕ(t)=k=0etkeλk!λk=exp{λ(et1)}\phi(t) = \sum_{k=0}^\infty \frac{e^{tk}e^{-λ}}{k!}\lambda^k = \exp\{λ(e^t-1)\}

# 指数分布

# 特征函数

假设 ξ\xiη\eta 都是概率空间 (Ω,F,P)(\Omega,\mathcal F, P) 上的实随机变量,那么称 ζ=ξ+iη\zeta = \xi + \text i\eta复随机变量。复随机变量 ζ=ξ+iη\zeta = \xi + \text i\eta 的期望定义为 Eζ:=Eξ+iEη\mathbb{E}\zeta:=\mathbb{E}\xi + \text i\mathbb{E}\eta.

下面我们引入特征函数。