# Background

泛化误差的上界可以表示为:

ϵtestϵ^train+complexityn.\epsilon_{\text{test}} \leq \hat{\epsilon}_{\text{train}} + \sqrt{\frac{\text{complexity}}{n}}.

其中 complexity\text{complexity} 是模型复杂度,比如正则项或者 dropout 等,可以是显式的也可以是隐式的。

机器学习的理论分析几乎都源于这个公式。

目前最新的机器学习算法大多都会关注 OOD (Out-of-Distribution) 问题,即训练数据(即 source domain)与应用数据(即 target domain)的范围不一致的情况。虽然在不同领域的称呼不一样,如上下文学习、小样本学习、迁移学习、元学习等。

那么,在 OOD 问题上,泛化误差如何得到限制?即如何得到 ϵ^s\hat{\epsilon}_{s}ϵ^t\hat{\epsilon}_{t} 的关系?

迁移学习的基本情况可以包括:

  1. Covariate shift: P(X)Q(X)P(X) \neq Q(X) 最基本
  2. Prior shift: P(Y)Q(Y)P(Y) \neq Q(Y)
  3. Conditional shift: P(YX)Q(YX)P(Y|X) \neq Q(Y|X) 最困难

目前对第一种情况研究较多。

研究的方法主要包括:

  1. 核方法 (kernel embedding):希望在高维空间中,P(YX)P(Y|X)Q(YX)Q(Y|X) 更接近
  2. 对抗学习 (adversarial learning)

# 统计学习流程

训练误差:

ϵ^p\hat{\epsilon}_p