因子分析是一种统计方法

因子分析是一种统计方法,用于分析一组观察到的变量之间的关系,方法是用较少数量的未观察到的变量(称为因子)来解释它们之间的相关性或协方差。

因子分析简介

因子分析是一种统计方法的图2 编辑

什么是因子分析?

因子分析是统计领域的一种方法,也是一般线性模型 (GLM) 的一部分,用于将众多变量压缩为一组较小的因子。通过这样做,它可以捕获变量之间的最大共享方差,并将它们压缩成一个统一的分数,随后可用于进一步分析。因子分析在几个假设下运行:关系的线性性、变量之间不存在多重共线性、在分析中包含相关变量以及变量和因子之间的真正相关性。虽然存在多种方法,但主成分分析在实践中是最普遍的方法。

因子分析中的因子是什么意思?

在因子分析的上下文中,“因子”是指潜在的、未观察到的变量或潜在结构,它表示一组观察到的变量之间的共同变化来源。这些观察到的变量,也称为指标或显现变量,是在研究中直接观察或测量的可测量变量。

如何进行因子分析(因子分析步骤)?

因子分析是一种统计方法,用于描述观察到的相关变量之间的变异性,即未观察到的变量(称为因子)的数量可能较少。以下是执行因子分析所涉及的一般步骤:

1. 确定数据对因子分析的适宜性

  • Bartlett 检验:检查显著性水平以确定相关矩阵是否适合用于因子分析。
  • Kaiser-Meyer-Olkin (KMO) 度量:验证抽样充分性。大于 0.6 的值通常被认为是可接受的。

2. 选择提取方法

  • 主成分分析 (PCA):当主要目标是数据缩减时使用。
  • Principal Axis Factoring (PAF):当主要目标是识别潜在因素时使用。

3. 因子提取

  • 使用所选的提取方法确定初始因子。
  • 提取特征值以确定要保留的因子数。特征值大于 1 的因子通常会保留在分析中。
  • 计算初始因子载荷。

4. 确定要保留的因子数

  • 碎石图:按降序绘制特征值,以可视化图趋于平稳的点(“弯头”),以确定要保留的因子数。
  • 特征值:保留特征值大于 1 的因子。

5. 因子旋转

  • 正交旋转 (Varimax, Quartimax):假设因子不相关。
  • 斜轴旋转 (Promax, Oblimin):允许对因子进行关联。
  • 旋转因子以获得更简单、更易解释的因子结构。
  • 检查旋转因子载荷。

6. 解释和标记因素

  • 分析旋转因子载荷以解释每个因子的基本含义。
  • 根据该因子上具有高载荷的变量,为每个因子分配有意义的标签。

7. 计算因子分数(如果需要)

  • 计算每个个体的因子分数,以表示它们在每个因子上的值。

8. 报告和验证结果

  • 报告最终因子结构,包括因子载荷和公因子方差。
  • 使用其他数据验证结果,或在必要时进行验证性因子分析。

因子分析示例(因子分析器):

以下是如何使用该库在 Python 中执行因子分析的示例 :factor_analyzer

 
     

为什么需要因子分析?

因子分析在统计分析中有几个目的和目标:

  1. 降维:因子分析通过识别较少数量的基础因子来解释观察到的变量之间的相关性或协方差,从而帮助减少所考虑的变量的数量。这种简化可以使数据更易于管理且更易于解释。
  2. 识别潜在结构:它允许研究人员识别可能无法直接观察到但可以从观察到的数据中的模式推断出的潜在结构或潜在因素。这些潜在的结构可以代表理论概念,例如人格特征、态度或社会经济地位。
  3. 数据汇总:通过将来自多个变量的信息压缩为较小的因子集,因子分析可以提供更简洁的数据摘要,同时保留尽可能多的相关信息。
  4. 假设检验:因子分析可用于检验有关数据底层结构的假设。例如,研究人员可能对变量应该如何相互关联有理论预期,因子分析可以帮助评估这些预期是否得到数据的支持。
  5. 变量选择: 它有助于确定哪些变量最重要或与解释潜在因素最相关。这有助于确定变量的优先级,以便进一步分析或开发更简洁的模型。
  6. 改进预测模型:因子分析可用作预处理步骤,通过减少预测变量之间的多重共线性和更有效地捕获变量之间的共享方差来提高预测模型的性能。

因子分析中最常用的术语

在因子分析中,通常使用多个术语来描述分析的各种概念和组成部分。下表列出了因子分析中一些最常用的术语:

术语 描述
因素 表示一组相关且倾向于共存的观测变量的潜在变量。
因子载荷 观测变量与基础因子之间的相关系数。
特征值 该值指示每个因子解释的方差量。
社区 每个观测变量的方差中可由因子解释的比例。
提取方法 用于从观测变量中提取初始因子的技术(例如,主成分分析、最大似然)。
旋转 一种用于旋转因子以获得更简单、更易解释的因子结构(例如,Varimax、Promax)的方法。
因子矩阵 显示观测变量对提取因子的载荷的矩阵。
碎石图 用于根据特征值的大小确定要保留的因子数的图。
Kaiser-Meyer-Olkin (KMO) 度量 抽样充分性的度量,表示数据对因子分析的适用性。值范围从 0 到 1,值越高表示适宜性越好。
Bartlett 检验 一种统计检验,用于确定观测变量的互相关性是否足以进行因子分析。
因子旋转 旋转因子以实现更简单、更易解释的因子结构的过程。
因子分数 表示每个单独观测值的每个因子值的分数。
因子方差 每个因子解释的观测变量的方差量。
载荷图 用于可视化观测变量对提取因子的因子载荷的图。
因子旋转标准 用于确定适当的旋转方法和角度以实现更简单、更易解释的因子结构的规则或标准。

让我们讨论一下这些因子分析术语中的一些:

  1. 因子载荷
    • 因子载荷表示在因子分析中观测到的变量与基础因子之间的相关性。它们指示每个变量和每个因子之间关系的强度和方向。
      • 对标准化因子载荷进行平方得到“公因子”,它表示由因子解释的变量中的方差比例。
  2. 公社性
    • 公因子方差是给定变量在所有因子中的因子载荷平方和。它衡量由所有因子共同解释的变量中的方差比例。
      • 公因子群可以解释为变量在所考虑的因素上下文中的可靠性。
  3. 伪解决方案
    • 如果变量的公因子方数超过 1.0,则表示存在伪解,这可能是由样本量小或提取因子过多或过少等因素引起的。
  4. 变量的唯一性
    • 变量的唯一性表示变量的可变性减去其公因子群性。它反映了变量中未由因子考虑的方差比例。
  5. 特征值/特征根
    • 特征值度量每个因子所占的总样本中的变异量。它们指示每个因子在解释变量方差方面的重要性。
      • 特征值越高,表示解释数据的因素越重要。
  6. 平方载荷的提取和
    • 这些是与每个提取的因子关联的载荷平方和。它们提供有关每个因子考虑了多少变量方差的信息。
  7. 因素分数
    • 因子分值表示因子分析中每个因子(列)上每个个案(行)的分值。它们是通过将每个个案在每个变量上的标准化分数乘以相应的因子载荷并对这些产品求和来计算的。

因子分析的类型

数据科学中使用的因子分析主要有两种类型:

1. 探索性因子分析 (EFA)

探索性因子分析 (EFA) 用于揭示一组观察变量的底层结构,而无需对有多少因子或变量与每个因子的关系施加先入为主的概念。它探讨了项目之间复杂的相互关系,旨在对属于统一概念或结构的项目进行分组。

  • 研究人员不对因素之间的关系做出先验假设,让数据有机地揭示结构。
  • 探索性因子分析 (EFA) 有助于确定解释观察到的变量方差所需的因子数量,并了解变量和因子之间的关系。

2. 验证性因子分析 (CFA)

验证性因子分析 (CFA) 是一种结构性更强的方法,它根据先前的理论知识或预期来检验关于观察到的变量和潜在因素之间关系的具体假设。它使用结构方程建模技术来测试测量模型,其中假设观察到的变量加载到特定因子上。

  • 验证性因子分析 (CFA) 评估假设模型与实际数据的拟合度,检查观察到的变量与建议的因子结构的一致性。
  • 此方法允许评估观测变量和未观测因子之间的关系,并且可以适应测量误差。
  • 研究人员在进行分析之前假设变量和因素之间的关系,并根据经验数据对模型进行测试以确定其有效性。

总之,探索性因子分析 (EFA) 更具探索性和灵活性,允许数据决定因子结构,而验证性因子分析 (CFA) 更具验证性,测试关于观察到的变量如何与潜在因子相关的特定假设。这两种方法都是了解数据底层结构的宝贵工具,各有优势和应用。

因子提取方法的类型

下面讨论了一些因子提取类型方法:

  1. 主成分分析 (PCA):
    • PCA 是一种广泛使用的因子提取方法。
    • 它旨在提取导致观测变量中最大可能方差的因子。
    • 计算因子权重以提取连续因子,直到无法提取出更有意义的方差。
    • 提取后,通常会旋转因子模型以进行进一步分析,以提高可解释性。
  2. 典型因子分析
    • 这种方法也称为 Rao 的规范因子分解,计算的模型与 PCA 类似,但使用主轴方法。
    • 它查找与观测变量具有最高典型相关性的因子。
    • 典型因子分析不受数据任意重新缩放的影响,因此它对某些数据转换具有鲁棒性。
  3. 公因子分析
    • 也称为主因子分析 (PFA) 或主轴因子分解 (PAF)。
    • 此方法旨在确定解释一组变量之间的常见方差(相关性)所需的最少因子。
    • 与 PCA 不同,公因子分析侧重于捕获共享方差,而不是总体方差。

因子分析的假设

让我们仔细看看因子分析的假设,如下所示:

  1. 线性:假定变量和因子之间的关系是线性的。
  2. 多元正态性:数据集中的变量应服从多元正态分布。
  3. 无多重共线性:变量不应彼此高度相关,因为高多重共线性会影响因子分析结果的稳定性和可靠性。
  4. 足够的样本量:因子分析通常需要足够的样本量才能产生可靠的结果。样本量的充足性可能取决于模型的复杂性和变量与个案的比率等因素。
  5. 同源性:变量的方差在因子的不同水平上应大致相等。
  6. 唯一性:每个变量都应该具有因子无法解释的唯一方差。此假设在公因子分析中尤为重要。
  7. Independent Observations:数据集中的观测值应彼此独立。
  8. 因子分值的线性性:假设观测变量和潜在因子之间的关系是线性的,即使观测变量彼此之间可能不是线性关系。
  9. 区间或比率尺度:因子分析通常假设变量是在区间或比率尺度上测量的,而不是在名义或顺序尺度上测量的。

违反这些假设可能会导致参数估计有偏差和对结果的不准确解释。因此,在进行因子分析之前评估这些假设的数据非常重要,如果不满足这些假设,则考虑可能的补救措施或替代方法。

常见问题解答 : 因子分析

1. 因子分析的步骤有哪些?

  • 收集数据:选择反映您正在研究的领域的相关变量。
  • 清理数据:确保您的数据质量高,并准备好进行分析。
  • 查找隐藏模式:提取解释变量之间关系的基础因素。
  • 使其更易于理解:简化因素以使其解释更清晰。
  • 用图表解释它的含义: 弄清楚这些因素代表什么以及它们与您的研究问题有何关系。
  • 仔细检查您的工作:确保您的发现是可靠的,并且可以被其他人复制。

2. 因子分析是什么意思?

因子分析不是分析一堆单独的数据点,而是帮助您识别少量的基本趋势,这些趋势可以解释数据中的大部分变化。

3. 什么是因子分析的示例?

将学生调查数据想象成高维空间中的一堆点,每个维度代表一个变量(睡眠质量、工作量等)。单独分析所有这些维度可能很麻烦。

4. 因子分析的 3 个目的是什么?

  • 简化您的数据:想象一个巨大的毛线球 – 这就是您的复杂数据。因子分析解开了它,揭示了构成整个事物的少量核心线程(因子)。
  • 查找隐藏的连接:除了更少的线程之外,因子分析还揭示了这些核心线程是如何秘密连接的。它发现了解释为什么某些变量一起移动的隐藏模式。
  • 了解更大的图景:通过查看这些隐藏的联系,您可以了解数据中起作用的潜在力量。它可以帮助您从真正影响结果的 “什么” (变量) 转变为 “为什么” (因素)。

因子分析示例(因子分析器):

以下是如何使用该库在 Python 中执行因子分析的示例 :factor_analyzer

以下内容为付费内容,请购买后观看

App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP

1