ML 的期末重点。
# 题型
选择题和大题。
# 1 Overview
ML 的类别。
回归问题和分类问题,多分类和二分类,多标签分类问题。
监督、无监督、半监督、强化学习是什么?
# 2 Linear & Logistic Regression
至少一道大题。
线性回归的预测规则,线性回归计算的模型,损失函数的求导 (求导规则不会太难)。
逻辑回归用来解决二分类问题。
Logistic 函数的性质和求导计算。
随机梯度下降的更新规则。
# 3 随机梯度下降算法
SGD 的加速方式。自适应 Learning rate, 动量梯度下降的概念和类别。 Adagrad, AdaDelta, Adam 的学习率计算方法。
# 4 Feature Extraction & PCA
Feature Extraction 和 Feature Selection 的区别。
LDA 和 PCA 的区别。无监督 / 有监督
最小化数据方差的方式?
协方差矩阵的定义。
LDA & PCA 会出一道大题。
information loss 的定义。
# LDA
有监督的特征提取。
类内散度矩阵
类间散度矩阵
# Feature Selection
出选择
- Wrapper method: 前向选择和后向选择
- Filter method: 计算特征与预测值之间的相关性,可以采用相关系数,KL 散度等方式刻画
- Embedded method: 加入正则项
- L1 范数更容易得到稀疏解
了解概念:Underfitting, Overfitting, generalization error
# 贝叶斯
不出大题了
多元高斯分布的函数形式
不同数据样本点分布的分离边界
naive bayes 的假设 最大化似然的理解
# 决策树
缺失值对模型的影响?