Spearman 的等级相关性

相关性度量两个变量之间的关联强度。例如,如果我们有兴趣了解父子的身高之间是否存在关系,则可以计算相关系数来回答这个问题。要了解有关关联的更多信息,请参阅此处。 

相关性分析的方法:相关性主要有两种类型:

  • 参数相关:静态 Pearson 相关 (r):它测量两个变量(x 和 y)之间的线性依赖性,被称为参数相关检验,因为它取决于数据的分布。它用于数值数据。
    非参数相关 – Kendall(tau) 和 Spearman(rho):它们是基于秩的相关系数,称为非参数相关。它用于分类数据。

什么是 Spearman 相关性

Spearman 秩相关是两个连续变量之间单调关系的强度和方向的统计度量。因此,这些属性将按其首选项的顺序进行排名或放置。它用符号 “rho” (ρ) 表示,值可以在 -1 到 +1 之间。正值 rho 表示两个变量之间存在正关系,而负值 rho 表示负关系。rho 值为 0 表示两个变量之间没有关联。

Spearman 相关公式

编辑

哪里

ρρ = Spearman 相关系数

rank = 变量值相对于数据集中其他值的位置或顺序

d= 为每个数据项的两个变量值分配的排名差异

n = 观测总数

逐步计算 Spearman 的秩相关性

将原始数据转换为排名:

创建排名涉及为数据集中的值分配数字顺序,其中最小值的排名为 1,第二个最小值的排名为 2,依此类推。

数据:

X1

Y1

1

7

5

2

6

4

3

4

5

4

5

6

5

8

10

6

7

7

7

10

9

8

3

2

9

9

8

10

2

1

为 X 创建排名1:

  1. 对 X 的值进行排序1按升序排列: .2, 3, 4, 5, 6, 7, 7, 8, 9, 10
  2. 根据排序顺序分配排名: .由于有两个绑定值 (6 和 7),因此会分配它们的平均排名 (6.5)。1, 2, 3, 4, 5,6.5, 6.5, 8, 9, 10

注意:如果数字相同,则考虑其等级的平均值。

对 Y 执行相同的作1我们得到:

等级 X1

等级 Y1

1

6.5

4.5

2

5

3

3

3

4.5

4

4

6

5

8

10

6

6.5

7

7

10

9

8

2

2

9

9

8

10

1

1

斯皮尔曼相关性 :

在 Spearman 的秩相关中,该过程涉及将原始数据转换为秩。这样做是为了评估两个变量之间的单调关系,而不依赖于数据点的特定数值。

让我们考虑在变量 X 中取 10 个不同的数据点1和 Y1.然后按照以下步骤作:

  • 按升序排列值,从最小到最大。
  • 根据每个值在排序顺序中的位置为每个值分配排名。最小值的秩为 1,次小值的秩为 2,依此类推。
  • 然后找出每个数据项的两个变量值所给定的排名差异的平方。
1 2 3 4 5 6 7 8 9 10
X1 7 6 4 5 8 7 10 3 9 2
Y1 5 4 5 6 10 7 9 2 8 1
等级 X1 6.5 5 3 4 8 6.5 10 2 9 1
等级 Y1 4.5 3 4.5 6 10 7 9 2 8 1
d2 4 4 2.25 4 4 0.25 1 0 1 0

计算 d2

获得排名后,您可以计算排名的差异。因此,在这种情况下,第一个数据点的排名差为 2,我们将其平方,同样,我们取 X 之间排名中第二个数据点的差值我和 Y我它是 2,将其平方,我们得到 4。所以,像这样,我们在排名中产生差异,通过平方,我们得到最终的 d 平方值。我们将所有值相加,然后在上述公式中使用该值计算 Spearman 系数。

通过将 d 的值2和 n 值

Spearman 的等级相关性的图4编辑

Spearman 相关性的性质

  • rs采用介于 -1(负关联)和 1(正关联)之间的值。
  • rs= 0 表示无关联。
  • 当关联不是线性的时,可以使用它。
  • 它可以应用于序数变量。

单调和非单调关系

单调关系是两个变量之间的数学关系,其中关系的方向(增加或减少)保持一致。

非单调关系是两个变量之间的数学关系,其中关系的方向不是始终增加或减少。

文件

Spearman 的等级相关性的图6 编辑

Anscombe 数据的 Spearman 相关性

Anscombe 数据也称为 Anscombe 四重奏,由四个数据集组成,这些数据集具有几乎相同的简单统计属性,但在绘制时看起来却大不相同。每个数据集由 11 (x, y) 点组成。它们由统计学家 Francis Anscombe 于 1973 年构建,用于证明在分析数据之前绘制数据的重要性以及异常值对统计属性的影响。这里给出了这 4 组 11 个数据点。请在此处下载 CSV 文件 当我们绘制这些点时,它看起来像这样。我在这里考虑 3 组 11 个数据点。

用于绘制数据的 Python 代码 

  • Python3 语言
 

以下内容为付费内容,请购买后观看

App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP

1