机器学习:相关性分析

阅读量 ,评论量

统计假设检验

前言

回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;而相关分析侧重于发现随机变量间的种种相关特性。

具体为,根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。

分类

连续变量之间的相关性度量

Pearson相关系数

度量两个连续变量之间的线性相关程度;

Spearman等级相关系数

可以衡量非线性关系变量间的相关系数,是一种非参数的统计方法,可以用于定序变量或不满足正态分布假设的等间隔数据;

Kendall秩相关系数

也是一种非参数的等级相关度量,类似于Spearman等级相关系数。

分类变量之间的相关性度量

卡方分析

分类变量与连续变量之间的相关性度量

T检验

方差分析

ANOVA(Analysis of Variance)通过检验多个总体的均值是否相等来判断是否有显著影响。

方差分析的基本思想和原理基于两类误差,随机误差和系统误差。

所以方差分析的实质是比较同一总体的误差与不同总体的误差是否相等,以检验不同总体下是否存在系统误差,从而检验多个总体的均值是否相等。