相关与回归
暗色模式
--- # 《变量间的关系:探索与预测(从相关到简单线性回归)》 --- # 引言:寻找心理变量之间的羁绊 心理学研究很少只关心一个变量本身,更关心的是:**一个心理变量变化时,另一个变量会不会也跟着变化**。 例如,我们常会提出这样的问题: - 抑郁水平越高,失眠程度会不会也越严重? - 焦虑特质越强,考试成绩会不会越低? - 安全型依恋水平越高,亲密关系满意度会不会越高? 这些问题表面不同,背后追问的其实是同一件事: > **两个变量之间是否存在稳定的关系?** 这里的“关系”,不是日常语言里那种模糊的“好像有关”,而是统计学意义上**可以被描述、比较和检验**的关系。通常来说,我们至少要回答两个问题。 ## 一、关系的方向:一起升,还是一升一降? 方向说的是:**当一个变量变大时,另一个变量通常朝哪个方向变化**。 - 如果一个变量越高,另一个变量通常也越高,这叫**正相关**。 例如,**抑郁程度越高,失眠程度也往往越严重**。 - 如果一个变量越高,另一个变量通常反而越低,这叫**负相关**。 例如,**考试焦虑越高,考试成绩可能越低**。 ## 二、关系的强度:这种联系有多紧? 除了方向,我们还关心这种联系到底有多紧密。 例如,同样是“抑郁与失眠正相关”: - 如果抑郁高的学生几乎总是失眠严重,那么这种关系就比较强; - 如果只是大体有这个趋势,但例外很多,那么这种关系就比较弱。 因此,相关分析的核心任务可以概括为一句话: > **衡量两个变量共同变化的方向与强度。** 不过,统计学里并不存在一种“万能相关系数”。面对不同类型的数据,我们要选不同的方法。最常见、也最基础的一种情形是:**两个变量都是连续型变量**。这时最经典的方法就是**Pearson积差相关**。 --- # 第一节:连续变量的交响乐 —— 积差相关(Pearson Correlation) 在心理学研究中,我们最常遇到的一类问题,是两个**连续型变量**之间有没有关系。 例如: - **智商分数(IQ)**与**工作记忆容量** - **焦虑量表总分**与**睡眠质量得分** - **尽责性人格得分**与**学业成绩** 这些变量都可以用数值表示,而且数值高低与差异大小都具有解释意义。在心理学中,许多量表总分虽然从严格测量理论上常被看作“近似等距”,但在统计实践中,通常可以作为**连续型变量**处理。 当我们关心两个连续型变量之间是否存在**线性关系**时,最常用的方法就是 **Pearson相关**。 ## 一、Pearson相关适用于什么情况? Pearson相关主要适用于以下情形: - 两个变量都是**连续型变量** - 我们关心的是它们之间是否存在**线性关系** - 每个被试在这两个变量上都有一对分数 这里的“线性关系”很重要。它的意思不是所有数据点必须完美落在一条直线上,而是说: > **随着X增加,Y大致稳定地增加,或者大致稳定地减少。** ## 二、Pearson相关到底在测什么? Pearson相关背后的核心问题其实很朴素: > **当一个人在X上高于平均水平时,他在Y上是否也往往高于平均水平?** 为了回答这个问题,我们先理解一个更基础的概念:**协方差**。 ### 协方差 设两个变量分别为 \(X\) 和 \(Y\),样本协方差为: \[ \mathrm{Cov}_{XY}=\frac{\sum (X-\bar X)(Y-\bar Y)}{n-1} \] 它的直觉含义是: - 如果一个人在X上高于平均,同时在Y上也高于平均,那么乘积为正; - 如果一个人在X上低于平均,同时在Y上也低于平均,那么乘积仍为正; - 如果一个人在X上高于平均,但在Y上低于平均,那么乘积为负。 所以: - **协方差大于0**:两个变量倾向于同方向变化 - **协方差小于0**:两个变量倾向于反方向变化 但协方差有一个问题:它会受变量单位影响,不能直接比较强弱。 ## 三、标准化:把不同变量放到同一把尺子上 为了消除单位影响,我们引入标准差 \(S_X\) 和 \(S_Y\),把协方差标准化,得到Pearson相关系数: \[ r=\frac{\mathrm{Cov}_{XY}}{S_XS_Y} \] 展开写就是: \[ r=\frac{\sum (X-\bar X)(Y-\bar Y)}{(n-1)S_XS_Y} \] 所以可以用一句话概括: > **Pearson相关是标准化的协方差。** 这也是为什么 \(r\) 的取值总在 \(-1\) 到 \(+1\) 之间。 ## 四、Pearson相关系数的解释 \[ -1 \le r \le 1 \] - \(r>0\):正相关 - \(r<0\):负相关 - \(r=0\):没有线性相关 并且: - \(r\) 越接近 \(+1\),正相关越强 - \(r\) 越接近 \(-1\),负相关越强 - \(r\) 越接近 \(0\),线性关系越弱 ## 五、一个更形象的理解:两个变量“合不合拍” 你可以把Pearson相关理解成两个变量变化时“合不合拍”。 - 如果IQ高于平均的人,工作记忆也大多高于平均,那么它们很“合拍”,\(r\) 较大; - 如果IQ高低和工作记忆高低常常对不上,那么它们不太“合拍”,\(r\) 就接近0。 ## 六、使用Pearson相关时需要注意什么? ### **1. 没有“样本量必须大于30”的硬性规定** Pearson相关**没有统一规定“样本量必须大于30才能用”**。 只要有成对数据,\(r\) 就可以计算。 但样本量越小,结果越不稳定,也越容易受极端值影响。因此,与其死记“30”这个数字,不如记住: > **Pearson相关能不能放心解释,不只看样本量,还要看散点图、异常值、线性关系是否存在,以及结果是否稳定。** ### **2. 相关不等于因果** 如果发现抑郁与失眠正相关,不能立刻说“抑郁导致失眠”或“失眠导致抑郁”。 可能还有第三变量,例如长期压力,同时影响二者。 ### **3. 极端值会显著影响结果** Pearson相关对离群值比较敏感。 因此做相关前,最好先看散点图。 ### **4. Pearson相关看的是线性关系** 如果两个变量之间确实有关系,但关系是弯曲的,比如倒U形,那么Pearson相关可能会偏低,甚至接近0。 ## 七、小结 这一节最重要的,不是背公式,而是理解这条逻辑: 1. 看每个人在两个变量上是否高于或低于平均水平 2. 看这两个偏离方向是否一致 3. 这形成**协方差** 4. 再把协方差除以两个变量的标准差 5. 得到**Pearson相关** 一句话概括: > **Pearson相关是标准化的协方差,它衡量两个连续型变量在线性意义上的共同变化。** --- # 第二节:等级变量的秩序 —— 秩相关(Spearman & Kendall) 并不是所有心理学数据都适合直接用Pearson相关。很多时候,我们面对的是: - 变量本身是**顺序数据** - 数据明显偏态 - 有极端值 - 我们更关心“谁比谁高”,而不是“高了多少分” 这时,我们要从“原始分数的世界”进入“**秩(rank)的世界**”。 ## 一、什么是“秩”? 秩就是**排名**。 例如,对10名被试的孤独感严重程度进行排序: - 最严重的排第1 - 第二严重的排第2 - … - 最轻的排第10 把原始分数变成秩以后,分析的重点就变了: - 原来关心:差了多少分? - 现在关心:顺序是否一致? ## 二、什么时候该想到秩相关? 适合考虑秩相关的情形包括: - 变量本身是**顺序变量** - 原始数据明显偏态 - 有极端值 - 关系更像“总体上越高越高”,但不一定是直线 ## 三、一个关键澄清:Spearman不是“把数据变正态” 很多教材会说:“当数据不服从正态分布时,可以改用Spearman相关。” 这句话不算错,但容易误导。 更准确的说法是: > **Spearman相关不是通过‘把数据变正态’来替代Pearson,而是通过‘把原始分数改写为秩’,把关注点从‘差多少’改成‘排序是否一致’。** 所以,Spearman能在偏态数据上使用,不是因为秩“变正态”了,而是因为它**不再依赖原始分数的分布形状**。 --- ## 四、Spearman \(\rho\):两个变量的秩是否同步? ### 心理学案例 假设专家对10名被试分别给出: - **孤独感等级** - **网络成瘾严重程度等级** 我们关心的是:在孤独感上排得高的人,在网络成瘾上是否也常排得高? 这就是Spearman相关要回答的问题。 ### 基本思想 > **Spearman相关,本质上是“对两个变量的秩做Pearson相关”。** 如果把两个变量分别转换成秩 \(R_X\) 和 \(R_Y\),那么: \[ \rho = r_{R_XR_Y} \] ### 无并列名次时的公式 \[ \rho = 1 - \frac{6\sum d^2}{n(n^2-1)} \] 其中: - \(d\):同一个体在两个变量上的秩差 - \(n\):样本量 ### 直觉解释 - 如果两套排名几乎一致,\(\sum d^2\) 很小,\(\rho\) 接近1 - 如果两套排名很不一致,\(\rho\) 下降 - 如果一个变量排前的人总在另一个变量排后,\(\rho\) 接近-1 ### Spearman适合什么? - 顺序变量 - 原始数据偏态明显 - 极端值较多 - 两变量关系更像**单调关系** 这里的**单调关系**是指: > X越大,Y总体上也越大;或者X越大,Y总体上越小。 它不要求一定是一条直线。 --- ## 五、Kendall’s W:多位评分者排得一致吗? Spearman处理的是**两个变量之间的秩相关**。 但心理学中还有一种常见问题: > **如果有多位评分者对同一组对象进行排序,他们彼此一致吗?** 这时常用的指标是 **Kendall’s W(肯德尔和谐系数)**。 ### 心理学案例 3位心理咨询师,对5位抑郁症患者的康复进展进行独立排序。 我们关心的是:这3位咨询师的排序一致吗? ### 计算逻辑 1. 每位评分者给每个对象一个名次 2. 对同一个对象,把所有评分者给的名次加总,得到**总秩和** \(R_i\) 3. 看不同对象的总秩和彼此差得大不大 如果评分者很一致,那么“恢复最好”的患者会一直排前面,“恢复最慢”的患者会一直排后面,于是总秩和会拉得很开;如果评分者意见分散,那么总秩和会彼此接近。 ### 无并列名次时的公式 设: - \(m\):评分者人数 - \(n\):被排序对象个数 - \(R_i\):第 \(i\) 个对象的总秩和 则: \[ W=\frac{12\sum (R_i-\bar R)^2}{m^2(n^3-n)} \] 其中: \[ \bar R=\frac{m(n+1)}{2} \] ### W的解释 \[ 0 \le W \le 1 \] - \(W=1\):完全一致 - \(W=0\):几乎不一致 ### 一个关键区别 - **Spearman \(\rho\)**:两个变量之间的秩相关 - **Kendall’s W**:多个评分者对同一组对象排序的一致性 --- ## 六、小结 这一节最重要的是明白: > **当我们不再相信“分数差多少”特别重要,而更关心“谁比谁高”的顺序信息时,就进入了秩相关的世界。** 其中: - **Spearman \(\rho\)** 看两个变量的排序是否一致 - **Kendall’s W** 看多位评分者的排序是否一致 --- # 第三节:混合数据类型的探秘 —— 质量相关与品质相关 前两节处理的是“连续 vs 连续”与“顺序 vs 顺序”。 但心理学研究中经常会出现: - 一个变量是**连续型** - 另一个变量是**类别型** 或者两个变量都是**类别型**。 这时,思路必须换一下: > **先判断变量的数据类型,再决定应该选哪一种关系指标。** ## 一、总的判断路线 先问自己三个问题: 1. 两个变量各是什么类型? 2. 如果是类别变量,是二分还是多分类? 3. 它是天然分类,还是把连续变量人为切开的结果? --- ## 二、点二列相关:真二分变量 + 连续变量 ### 心理学案例 - 是否接受CBT:是 / 否 - 抑郁量表得分:连续分数 ### 基本思想 如果我们把“是否接受CBT”编码为: - 否 = 0 - 是 = 1 那么点二列相关其实就在表达: > **0组和1组在连续变量上的平均水平是否存在系统差异。** ### 公式 设: - \(M_1\):编码为1的那组平均数 - \(M_0\):编码为0的那组平均数 - \(S_Y\):连续变量总标准差 - \(p\):1组比例 - \(q=1-p\):0组比例 则: \[ r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq} \] ### 一个关键结论 > **点二列相关,本质上是Pearson相关的一种特殊形式。** 因为对一个0/1变量与一个连续变量计算Pearson相关,得到的结果恰好就是点二列相关。 --- ## 三、二列相关:表面二分,实则连续 有些变量看起来是二分的,但其实是把一个连续变量硬切成两类。 例如: - 考试成绩 → 及格 / 不及格 - 焦虑得分 → 高焦虑 / 低焦虑 - 抑郁水平 → 高抑郁 / 低抑郁 这时可考虑**二列相关(biserial correlation)**。 ### 但要特别注意 二列相关不是只看到“0/1”就能用。它通常假设: 1. 这个二分变量背后存在一个**连续潜变量** 2. 这个潜变量**近似服从正态分布** 它的公式中用到了正态分布在切点处的概率密度,因此: > **二列相关带有更强的模型假设,不适用于所有二分变量。** 一句话记忆: - 本来就只有两类 → **点二列相关** - 原本连续,后来被切成两类 → **二列相关** --- ## 四、多列相关:表面多分类,实则连续分段 如果一个变量是多分类的,而且这些类别是顺序性的,例如: - 社会经济地位:低 / 中 / 高 - 抑郁严重程度:轻 / 中 / 重 那么理论上可以考虑**多列相关**。 但同样要满足前提: - 背后存在连续潜变量 - 潜变量近似正态分布 - 分类是连续变量被切分后的结果 因此,多列相关在本章只作概念性介绍。对初学者来说,更重要的是知道: > **连续变量 vs 多分类变量,实际研究中常常更自然地通向方差分析或虚拟变量回归。** --- ## 五、品质相关:类别变量 vs 类别变量 如果两个变量都是类别变量,例如: - 是否接受心理治疗:是 / 否 - 是否复发:是 / 否 这时讨论的是**品质相关(attribute correlation)**。 ### \(\phi\) 系数 当两个变量都是二分变量时,可以用 **\(\phi\) 系数**。 若2×2列联表为: | | 复发 是 | 复发 否 | |---|---:|---:| | CBT 是 | \(a\) | \(b\) | | CBT 否 | \(c\) | \(d\) | 则: \[ \phi=\frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \] 不过在本章中,我们只把它作为卡方检验前的铺垫。 --- ## 六、本节小结 这一节最重要的不是记住所有名字,而是记住这张地图: - 连续 vs 真二分 → **点二列相关** - 连续 vs 人为二分 → **二列相关** - 连续 vs 人为多分类顺序变量 → **多列相关(需额外假设)** - 类别 vs 类别 → **品质相关,如 \(\phi\)** 并且一定要记住: > **二列相关和多列相关并不是对所有分类变量都适用,它们通常假设该分类变量背后存在被切分的连续潜变量,且该潜变量近似正态分布。** --- # 第四节:从“相关”到“预测”的飞跃 —— 一元线性回归 前面几节,我们一直在问: > **两个变量之间有没有关系?** 但心理学研究往往还想更进一步: > **如果我知道一个人的X值,能不能预测他的Y值?** 这就是从“相关”迈向“回归”的关键一步。 ## 一、什么是一元线性回归? 一元线性回归研究的是: > **用一个自变量 \(X\),去预测一个因变量 \(Y\)。** 例如: - 用**尽责性人格得分**预测**高考成绩** - 用**焦虑水平**预测**睡眠质量** - 用**工作记忆容量**预测**问题解决表现** 如果我们认为X与Y之间大致呈线性关系,就可以写出: \[ \hat{Y}=a+bX \] 其中: - \(\hat{Y}\):预测值 - \(a\):截距 - \(b\):回归系数(斜率) ## 二、这条式子怎么理解? - **\(\hat{Y}\)**:模型预测出来的Y - **\(a\)**:当 \(X=0\) 时预测的Y - **\(b\)**:X每增加1单位,预测的Y平均变化多少 例如: \[ \hat{Y}=420+2.5X \] 表示尽责性每增加1分,预测高考成绩平均增加2.5分。 ## 三、为什么是这条线?—— 最小二乘法(OLS) 散点图上有很多点,为什么偏偏选这条线? 因为它让所有观测点的预测误差平方和最小: \[ \sum (Y-\hat{Y})^2 \] 其中: \[ e=Y-\hat{Y} \] 叫做**残差**,表示真实分数与预测分数的差。 最小二乘法的思想就是: > **在所有可能的直线中,找一条让整体预测误差尽可能小的线。** ## 四、回归系数 \(b\) 与截距 \(a\) 一元线性回归中: \[ b=\frac{\sum (X-\bar X)(Y-\bar Y)}{\sum (X-\bar X)^2} \] \[ a=\bar Y-b\bar X \] 这说明: - \(b\) 本质上反映“Y跟着X变化的程度” - 回归线一定经过 \((\bar X,\bar Y)\) ## 五、回归和相关的关系 一元线性回归中,有一个非常重要的关系: \[ b=r\cdot \frac{S_Y}{S_X} \] 这意味着: > **回归斜率 = 相关强度 × 单位换算** 所以: - **相关系数 \(r\)** 是无量纲的 - **回归系数 \(b\)** 带有原始单位 如果把X和Y都标准化,那么: \[ \beta = r \] 也就是说,在标准化变量上做一元回归时,标准化回归系数就等于Pearson相关系数。 ## 六、解释率:\(R^2\) 回归里另一个非常重要的量是: \[ R^2 \] 它表示: > **Y的总变异中,有多大比例可以由X解释。** 例如: \[ R^2=0.36 \] 表示高考成绩的个体差异中,大约有36%可以由尽责性得分解释。 在**一元线性回归**中,还有一个漂亮的结论: \[ R^2=r^2 \] 这说明回归不是抛弃了相关,而是把相关推进成了预测与解释。 ## 七、回归方程算出来以后,还要问:它可靠吗? 样本中总能算出一条回归线,但统计学不会满足于“算出来了”,还会继续追问: > **这条线是真实反映总体趋势,还是样本偶然波动造成的?** 因此,一元线性回归中最核心的检验是: \[ H_0:\beta=0 \] 这里的 \(\beta\) 表示总体回归系数。 这个原假设的意思是: > **在总体中,X对Y没有线性预测作用。** 如果检验结果表明可以拒绝这个原假设,就说明: > **样本中观察到的回归关系,不太可能只是随机波动造成的。** ### 这和相关检验有什么关系? 在一元线性回归中,检验“回归斜率是否为0”,与检验“Pearson相关是否为0”,本质上是相通的。 因为: \[ b=r\cdot \frac{S_Y}{S_X} \] 所以: - \(r=0 \Rightarrow b=0\) - \(b=0 \Rightarrow r=0\) ### 一个非常重要的提醒 即使一个回归系数显著,也不等于它一定有很强的预测力。 - **显著**:说明关系不像是纯偶然 - **\(R^2\)大不大**:说明它究竟解释了多少 因此,读回归结果时至少要同时看两件事: - **是否显著** - **解释率有多大** ## 八、本节小结 这一节最重要的是理解: - 相关只告诉你“有关系” - 回归把这种关系写成预测方程 - 最小二乘法选出最佳拟合线 - 一元回归中 \[ b=r\cdot \frac{S_Y}{S_X} \] - 解释率满足 \[ R^2=r^2 \] 所以,一元线性回归可以看作是在“相关存在”的基础上,把关系推进成了**可用于预测的线性规则**。 --- # 第五节(高光时刻):万宗归一 —— 当回归遇上点二列相关 现在我们进入本章的统一时刻。 前面我们已经学过: - 点二列相关:处理二分变量与连续变量 - 一元线性回归:用X预测Y 那么问题来了: > **如果回归里的X不是连续变量,而是一个只有两个水平的类别变量,会怎么样?** 答案是:不仅能做,而且会出现一个极其漂亮的统一: > **当X是0/1虚拟变量时,一元线性回归与点二列相关本质上是同一件事。** ## 一、类别变量如何进入回归?—— 虚拟变量 如果一个变量只有两个类别,例如: - 是否接受CBT:否 / 是 我们可以把它编码为: - \(X=0\):未接受CBT - \(X=1\):接受CBT 这就是**虚拟变量(dummy variable)**。 然后依然写回归方程: \[ \hat{Y}=a+bX \] ## 二、当 \(X\) 只能取0或1时,回归方程意味着什么? 分别代入: ### 当 \(X=0\) 时: \[ \hat{Y}=a \] ### 当 \(X=1\) 时: \[ \hat{Y}=a+b \] 所以: - 编码为0的那组,预测值是 \(a\) - 编码为1的那组,预测值是 \(a+b\) 也就是说,这条“回归线”其实只是在确定两个点: - 0组的预测均值 - 1组的预测均值 于是,在最小二乘法下可以得到: \[ a=M_0 \] \[ a+b=M_1 \] 因此: \[ b=M_1-M_0 \] 这就是本节第一个核心结论: > **当X是0/1虚拟变量时,回归斜率 \(b\) 就等于两组均值之差。** ## 三、心理学例子:CBT干预与抑郁得分 设: - \(X=0\):未接受CBT - \(X=1\):接受CBT - \(Y\):8周后的抑郁量表得分 样本结果: - 未接受CBT组平均分:\(M_0=24\) - 接受CBT组平均分:\(M_1=18\) 则回归方程为: \[ \hat{Y}=24-6X \] 因为: - \(a=24\) - \(b=18-24=-6\) 这说明: > **接受CBT这一组,比未接受CBT这一组,平均抑郁分低6分。** ## 四、这和点二列相关有什么关系? 点二列相关公式为: \[ r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq} \] 而在虚拟变量回归中: \[ b=M_1-M_0 \] 所以两者共享同一个核心信息:**两组均值差**。 不同的是: - \(b\) 保留了原始单位 - \(r_{pb}\) 把这种差异进一步标准化了 所以可以说: > **回归在说“两组差了多少原始分数单位”; > 点二列相关在说“这种差异有多强,用标准化方式表示”。** ## 五、更深的统一:\(R^2=r_{pb}^2\) 在一元线性回归中: \[ R^2=r^2 \] 当 \(X\) 是一个0/1虚拟变量时,这里的 \(r\) 正是点二列相关: \[ r=r_{pb} \] 于是: \[ R^2=r_{pb}^2 \] 这就是本节最关键的第二个结论: > **两水平虚拟变量的一元回归,其解释率完全等于点二列相关的平方。** ## 六、它和独立样本t检验又是什么关系? 如果虚拟变量回归本质上是在比较两组均值,那么它当然也和独立样本t检验相通。 独立样本t检验问的是: > **两组均值是否显著不同?** 而虚拟变量回归中检验的是: \[ H_0:b=0 \] 由于: \[ b=M_1-M_0 \] 所以这其实就是在问: > **两组均值差是否为0?** 因此在这个特殊场景下: - **点二列相关** - **两水平虚拟变量回归** - **独立样本t检验** 并不是三套彼此无关的方法,而是: > **同一个统计事实的三种表达方式。** ## 七、为什么这体现了一般线性模型的统一性? 初学统计时,学生常觉得: - 相关是一章 - t检验是一章 - 回归是一章 - 方差分析又是一章 它们看起来像四套彼此独立的工具。 但这节告诉我们,不是这样。 当我们研究“一个二分类变量 + 一个连续结果变量”时: - 可以把它看成**点二列相关** - 可以把它看成**两组均值比较** - 也可以写成**0/1虚拟变量的一元回归** 它们的核心信息其实是统一的。 这就是一般线性模型(GLM)的精神: > **许多看起来不同的方法,底层都在处理‘解释变量如何系统影响结果变量’这一件事。** ## 八、本节小结 这一节最值得带走的四句话是: 1. **类别变量也能进入回归**,只要把二分类变量编码成0/1 2. **当X是0/1变量时,回归线连接的是两组均值** 3. **回归斜率就是两组均值差** 4. **一元回归中,解释率满足** \[ R^2=r_{pb}^2 \] 因此: > **点二列相关、两水平虚拟变量回归、独立样本t检验,底层逻辑是相通的。** --- # 本章总结:从“关系”走向“统一” 这一章的主线可以概括为: - 当两个变量都是连续型时,用 **Pearson相关** 看线性共同变化 - 当变量是顺序型,或更关心排序一致性时,用 **Spearman** 与 **Kendall** - 当变量类型混合时,根据数据类型选择 **点二列相关、二列相关、多列相关或品质相关** - 当我们不再只满足于“有关系”,而是想建立预测规则时,就进入 **一元线性回归** - 而当自变量是一个两水平类别变量时,回归、点二列相关、t检验又重新汇合到一起 所以,这一章真正想教给你的,不只是几个公式,而是一种看问题的方法: > **先判断变量类型,再选择合适的关系指标;再进一步思考,这种关系能否写成预测模型;最后看到,不同统计方法其实共享同一套底层逻辑。** --- # 补充材料:核心公式推导与统计检验(供学有余力的同学阅读) 下面这部分不要求所有同学一次性全部掌握,但它能帮助你把本章真正打通。 --- ## 补充材料A:为什么Pearson相关是“标准化的协方差”? 协方差为: \[ \mathrm{Cov}_{XY}=\frac{\sum (X-\bar X)(Y-\bar Y)}{n-1} \] Pearson相关定义为: \[ r=\frac{\mathrm{Cov}_{XY}}{S_XS_Y} \] 代入协方差表达式: \[ r=\frac{\sum (X-\bar X)(Y-\bar Y)}{(n-1)S_XS_Y} \] 因此,Pearson相关就是把协方差除以两个变量的标准差,从而消除单位影响。 --- ## 补充材料B:为什么Spearman可以看成“对秩做Pearson”? 把原始变量 \(X,Y\) 分别替换为秩变量 \(R_X,R_Y\),则: \[ \rho = r_{R_XR_Y} \] 也就是说,Spearman不是在原始分数上做Pearson,而是在**秩**上做Pearson。 因此它关注的不是“原始距离”,而是“排序一致性”。 --- ## 补充材料C:Kendall’s W 的计算来源 设: - \(m\):评分者人数 - \(n\):对象数 - \(R_i\):第 \(i\) 个对象的总秩和 - \(\bar R=\frac{m(n+1)}{2}\) 先定义: \[ S=\sum (R_i-\bar R)^2 \] 如果评分者越一致,则总秩和离散程度越大;如果评分者越不一致,则总秩和越接近。 因此定义: \[ W=\frac{12S}{m^2(n^3-n)} \] 该式将总秩和离散程度标准化到0到1之间。 --- ## 补充材料D:点二列相关公式的来历 设二分变量 \(X\in\{0,1\}\),其中: - \(P(X=1)=p\) - \(P(X=0)=q\) 则: \[ \bar X = p \] 并且可证明: \[ S_X=\sqrt{pq} \] 对一个0/1变量与连续变量 \(Y\) 做Pearson相关: \[ r=\frac{\mathrm{Cov}(X,Y)}{S_XS_Y} \] 进一步展开后可得: \[ r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq} \] 这说明: > **点二列相关并不是一个神秘新公式,而就是Pearson相关在二分变量情形下的特殊化。** --- ## 补充材料E:一元线性回归中 \(b\) 与 \(a\) 的推导结果 最小二乘法最小化: \[ \sum (Y-\hat Y)^2=\sum (Y-a-bX)^2 \] 对 \(a\) 和 \(b\) 求偏导并令其为0,可得到正则方程,最终解为: \[ b=\frac{\sum (X-\bar X)(Y-\bar Y)}{\sum (X-\bar X)^2} \] \[ a=\bar Y-b\bar X \] --- ## 补充材料F:为什么 \(b=r\frac{S_Y}{S_X}\)? 由Pearson相关: \[ r=\frac{\sum (X-\bar X)(Y-\bar Y)}{(n-1)S_XS_Y} \] 由回归斜率: \[ b=\frac{\sum (X-\bar X)(Y-\bar Y)}{\sum (X-\bar X)^2} \] 而: \[ \sum (X-\bar X)^2=(n-1)S_X^2 \] 代入可得: \[ b=\frac{r(n-1)S_XS_Y}{(n-1)S_X^2}=r\frac{S_Y}{S_X} \] --- ## 补充材料G:为什么一元回归中 \(R^2=r^2\)? 在一元线性回归中,拟合值 \(\hat Y\) 与 \(Y\) 之间的相关平方,等于模型解释的总变异比例。 对只有一个自变量的情形,可以证明: \[ R^2=r^2 \] 其中 \(r\) 是X与Y之间的Pearson相关。 若X是0/1变量,则这里的 \(r\) 就是点二列相关 \(r_{pb}\)。 --- ## 补充材料H:一元回归的统计检验 在一元回归中,最核心的假设检验是: \[ H_0:\beta=0 \] 样本中的检验统计量通常写作: \[ t=\frac{b}{SE_b} \] 其中: - \(b\):样本回归系数 - \(SE_b\):回归系数的标准误 - 自由度: \[ df=n-2 \] 如果t值足够大,或者对应的p值足够小,我们就拒绝 \(H_0\),认为X对Y具有显著线性预测作用。 --- ## 补充材料I:为什么“斜率检验 = 相关检验”? 由: \[ b=r\frac{S_Y}{S_X} \] 可知: - \(r=0 \Leftrightarrow b=0\) 因此,在一元线性回归中: - 检验 \(H_0:\beta=0\) - 检验 \(H_0:\rho=0\) 本质上是同一个问题。 进一步还可以证明,在一元回归中: \[ F=t^2 \] 这再次说明回归检验、相关检验与均值差异检验之间存在深层统一。 --- ## 补充材料J:为什么两水平虚拟变量回归等价于点二列相关? 设 \(X=0/1\)。 回归方程: \[ \hat Y=a+bX \] 代入两组可得: - \(X=0\): \[ \hat Y=a=M_0 \] - \(X=1\): \[ \hat Y=a+b=M_1 \] 所以: \[ b=M_1-M_0 \] 另一方面,点二列相关为: \[ r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq} \] 可见二者共享同一个核心信息:两组均值差。 再结合一元回归中 \(R^2=r^2\),即可得到: \[ R^2=r_{pb}^2 \] 因此: > **两水平虚拟变量回归与点二列相关是同一逻辑的不同表达。** ---