PCA降维再悟

孙亭
简单来说,PCA 的全部工作就是在原始空间中,按顺序的找到一组相互正交的坐标轴,数据在第一个坐标轴上方差最大,第二个坐标轴是在与第一个坐标轴正交的平面中使得方差最大的…这样在 n 维空间中,我们就能找到 n 个这样的坐标轴,取前 r 个去近似这个空间,这样就能从 n 维空间降到 r 维空间了,并且这 r 个坐标轴能让空间压缩造成的损失降到最小。

PCA 的实现方式有两种:

前者仅可用于方阵,后者可以将任意矩阵 X 分解为X = u * s * v 的形式,适用面较广。


特征值分解的步骤为:

  1. 原始矩阵X (行是维度,列是样品)每个维度均值中心化
  2. 协方差矩阵 C =(1/m) X * X‘(前提是均值中心化)
  3. 求对称的协方差矩阵的特征值和特征向量,把特征向量按特征值的大小成行排列,将特征向量单位化,得到 新的基P
  4. 基变换 Y  = P * X,取前r 行,即可将数据降到 r 维

推导过程:

新基就是协方差矩阵的特征向量,按行排