多元统计是数理统计的一个分支。近年随着数据挖掘、机器学习等等相关领域的发展,很多多元统计方法也随之“出圈”(特别是主成分分析和聚类分析),成为数据科学常用方法的组成部分,甚至衍生出了更多复杂精妙的新算法。另有一些多元统计方法(比如因子分析和对应分析),依旧活跃在社会科学或生物这样的传统统计用户群中。R作为统计编程语言,有大量用于实现多元统计方法的函数和包。
在这些R包中,FactoMineR包从探索性分析的角度(对数据集进行描述、绘制并可视化)对几种传统的多元统计方法进行了扩展,包括如下方法1)降维方法:主成分分析(PCA)、因子分析(FA,包括多重因子分析MFA、层次多重因子分析HMFA以及混合数据因子分析FAMD)、对应分析(CA,包括多重对应分析MCA)(2)聚类分析方法:层次聚类、k-均值聚类和基于模型的聚类。FactomineR很好地整合了多元分析的结果,还具有如下特点:可以考虑不同类型的变量(定量或分类)、不同类型的数据结构(变量划分、变量层次结构、个体划分)以及补充信息(补充个体和变量)。
factoextra包是FactoMineR的一个补充。它使用FactoMineR(以及其他R包:stats、ade4、ExPostion)的计算结果,在ggplot2的基础上给出了多元分析结果更美观的可视化。
1、降维方法
FactoMineR和factoextra包括的降维方法如图-1所示,可以根据数据变量的特点(定量/数值、定性/分类、混合)对这些方法进行区分。
图-1
这些降维方法有着类似的思想(但是不同的算法),都是采用原始变量的线性组合作为新的变量,选择新变量都使用了特征值特征向量方法,用特征值的大小体现新变量的重要性,用相关性体现新变量与原始变量或观测之间的关系。
1-1主成分分析(PCA)
例:洛杉矶街区数据
来自美国人口普查局年的数据,包括了洛杉矶地区个街区,15个变量。使用rvest包,从网络获取这个数据集。它的15个变量如下表所示:
表:洛杉矶街区数据集
我们只使用其中的六个变量(In