分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。本文主要介绍比较常用的 Pearson相关系数、Spearman秩相关系数 。这两个相关性系数反应的都是两个变量之间变化趋势的方向以及程度,取值范围为 -1 到 +1, 0 表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
1. 定义:皮尔森相关系数也称皮尔森积矩相关系数,是一种线性相关系数,用来反映两个变量 X 和 Y 的线性相关程度。 其中 表示变量 X 和 Y 的标准差, 表示变量 X 和 Y 的 协方差。 其中 、 是 和 的平均值。
最后整理可得: 2. 数据要求:Pearson相关系数可用于衡量变量之间的线性相关程度,但是对数据也有一定的要求
3. 缺点:皮尔森相关性系数受异常值的影响比较大
上面我们介绍了 Pearson 相关系数的局限性,为了摆脱这些局限性,我们将介绍 Spearman 相关系数。它比 Pearson 相关系数 的应用范围更广一些。
1.定义: 斯皮尔曼相关系数是秩相关系数的一种。通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解
它是一种无参数(与分布无关)的检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman Correlation Coefficient(斯皮尔曼相关系数)就是+1或-1,称变量完全Spearman秩相关。 无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序 如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。 其中 和 分别是观测值 i 的取值的等级, 和 分别是变量 x 和变量 y 的平均等级,N 是观测值的总数量, 表示二列成对变量的等级差数。
2. 数据要求:
Spearman 和 Pearson 相关系数在算法上完全相同. 只是 Pearson 相关系数是用原来的数值计算积差相关系数, 而 Spearman 是用原来数值的秩次计算积差相关系数。