ML 的期末重点。

# 题型

选择题和大题。

# 1 Overview

ML 的类别。

回归问题和分类问题,多分类和二分类,多标签分类问题。

监督、无监督、半监督、强化学习是什么?

# 2 Linear & Logistic Regression

至少一道大题。

线性回归的预测规则,线性回归计算的模型,损失函数的求导 (求导规则不会太难)。

逻辑回归用来解决二分类问题。

Logistic 函数的性质和求导计算。

随机梯度下降的更新规则。

# 3 随机梯度下降算法

SGD 的加速方式。自适应 Learning rate, 动量梯度下降的概念和类别。 Adagrad, AdaDelta, Adam 的学习率计算方法。

# 4 Feature Extraction & PCA

Feature Extraction 和 Feature Selection 的区别。

LDA 和 PCA 的区别。无监督 / 有监督

最小化数据方差的方式?

协方差矩阵的定义。

LDA & PCA 会出一道大题。

information loss 的定义。

# LDA

有监督的特征提取。

类内散度矩阵

sw=ixCi(xμi)(xμi)s_w = \sum_{i}\sum_{\boldsymbol{x} \in C_i}(\boldsymbol{x} - \boldsymbol{\mu}_i)(\boldsymbol{x} - \boldsymbol{\mu}_i)^\top

类间散度矩阵

sb=ini(μiμ)(μiμ)=12Ni,j(μiμj)(μiμj)s_b = \sum_in_i(\boldsymbol{\mu}_i - \boldsymbol{\mu})(\boldsymbol{\mu}_i - \boldsymbol{\mu})^\top = \frac{1}{2N}\sum_{i,j}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)^\top

# Feature Selection

出选择

  • Wrapper method: 前向选择和后向选择
  • Filter method: 计算特征与预测值之间的相关性,可以采用相关系数,KL 散度等方式刻画
  • Embedded method: 加入正则项
    • L1 范数更容易得到稀疏解

了解概念:Underfitting, Overfitting, generalization error

# 贝叶斯

不出大题了

多元高斯分布的函数形式

不同数据样本点分布的分离边界

naive bayes 的假设 最大化似然的理解

# 决策树

缺失值对模型的影响?

# 集成学习