跳转到内容

统计学/多元数据分析/主成分分析

来自维基教科书,开放的书籍,为开放的世界

在主成分分析(PCA)中,从数据创建新的坐标系。这个新坐标系的原点是总均值,即每个变量的均值在转换后的坐标系中变为 0。第一个主成分(第一轴)沿着数据的最大延伸方向延伸。想象你的数据是三个变量,x1、x2 和 x3。数据在三维空间中形成数据云,例如像一个圆面包。然后第一个轴 (p1) 可以被可视化为一根穿过圆面包最大尺寸的针。第二个轴 (p2) 与第一个轴正交,沿着圆面包的下一个最长边延伸。如前所述,原点,即两个轴的交点,是均值。因此,两个轴在圆面包的重心(假设密度均匀)处相遇。第三个轴同样与前两个轴正交。在我们这个 3D 例子中,你可以很容易地算出,只有一种可能性了。

任何旧变量值的组合(例如 x11、x21、x31)在转换后的 PCA 系统中都会有新的值(p11、p21、p31)。但是现在坐标向量 (p1.、p2. 和 p3.) 将是正交的且不相关的。

另请参阅

[编辑 | 编辑源代码]
华夏公益教科书