# 数据挖掘
数据挖掘 (data mining) 不强调学习,强调从数据中提取信息并形成可理解的结构的过程。
# 基本的方法
# PCA
最基本的方法,永远的折磨,不再讲了。
# 随机投影
z=k1Px,
其中 P 是随机投影矩阵,从标准正态分布中采样得到;x∈Rd,z∈Rk, 且有 k≪d.
(似乎)显然,如果 Pij,∀i,j 是从标准正态分布中采样的,那么这里的估计是无偏的,即
E(∥z∥2)=∥x∥2.
同时,这个投影是近似保距的。可以用下述定理描述:
对 ∀ε∈(0,1/2), 任意样本集 D={x(i)}i=1n, 令投影矩阵 P 为前述从正态分布中采样的随机投影矩阵,若投影维度
k≥e2−e38lnσn,
那么至少以 1−ε 使下式成立:
(1−ε)∥x−x′∥2≤∥Px−Px′∥2≤(1+ε)∥x−x′∥2,∀x,x′∈D.
# 矩阵近似计算
矩阵近似计算的一个方法是矩阵分解。即构造
M′=CB∈Rm×n,
使得 ∥M−M′∥F 最小,且 rank(M′)≤r.
实现该矩阵分解的方式就是 SVD 分解。
后面有随机 SVD 等方法。