相关与回归

---

# 《变量间的关系：探索与预测（从相关到简单线性回归）》

---

# 引言：寻找心理变量之间的羁绊

心理学研究很少只关心一个变量本身，更关心的是：**一个心理变量变化时，另一个变量会不会也跟着变化**。

例如，我们常会提出这样的问题：

- 抑郁水平越高，失眠程度会不会也越严重？
- 焦虑特质越强，考试成绩会不会越低？
- 安全型依恋水平越高，亲密关系满意度会不会越高？

这些问题表面不同，背后追问的其实是同一件事：

> **两个变量之间是否存在稳定的关系？**

这里的“关系”，不是日常语言里那种模糊的“好像有关”，而是统计学意义上**可以被描述、比较和检验**的关系。通常来说，我们至少要回答两个问题。

## 一、关系的方向：一起升，还是一升一降？

方向说的是：**当一个变量变大时，另一个变量通常朝哪个方向变化**。

- 如果一个变量越高，另一个变量通常也越高，这叫**正相关**。  
  例如，**抑郁程度越高，失眠程度也往往越严重**。

- 如果一个变量越高，另一个变量通常反而越低，这叫**负相关**。  
  例如，**考试焦虑越高，考试成绩可能越低**。

## 二、关系的强度：这种联系有多紧？

除了方向，我们还关心这种联系到底有多紧密。

例如，同样是“抑郁与失眠正相关”：

- 如果抑郁高的学生几乎总是失眠严重，那么这种关系就比较强；
- 如果只是大体有这个趋势，但例外很多，那么这种关系就比较弱。

因此，相关分析的核心任务可以概括为一句话：

> **衡量两个变量共同变化的方向与强度。**

不过，统计学里并不存在一种“万能相关系数”。面对不同类型的数据，我们要选不同的方法。最常见、也最基础的一种情形是：**两个变量都是连续型变量**。这时最经典的方法就是**Pearson积差相关**。

---

# 第一节：连续变量的交响乐 —— 积差相关（Pearson Correlation）

在心理学研究中，我们最常遇到的一类问题，是两个**连续型变量**之间有没有关系。

例如：

- **智商分数（IQ）**与**工作记忆容量**
- **焦虑量表总分**与**睡眠质量得分**
- **尽责性人格得分**与**学业成绩**

这些变量都可以用数值表示，而且数值高低与差异大小都具有解释意义。在心理学中，许多量表总分虽然从严格测量理论上常被看作“近似等距”，但在统计实践中，通常可以作为**连续型变量**处理。  
当我们关心两个连续型变量之间是否存在**线性关系**时，最常用的方法就是 **Pearson相关**。

## 一、Pearson相关适用于什么情况？

Pearson相关主要适用于以下情形：

- 两个变量都是**连续型变量**
- 我们关心的是它们之间是否存在**线性关系**
- 每个被试在这两个变量上都有一对分数

这里的“线性关系”很重要。它的意思不是所有数据点必须完美落在一条直线上，而是说：

> **随着X增加，Y大致稳定地增加，或者大致稳定地减少。**

## 二、Pearson相关到底在测什么？

Pearson相关背后的核心问题其实很朴素：

> **当一个人在X上高于平均水平时，他在Y上是否也往往高于平均水平？**

为了回答这个问题，我们先理解一个更基础的概念：**协方差**。

### 协方差

设两个变量分别为 \(X\) 和 \(Y\)，样本协方差为：

\[
\mathrm{Cov}_{XY}=\frac{\sum (X-\bar X)(Y-\bar Y)}{n-1}
\]

它的直觉含义是：

- 如果一个人在X上高于平均，同时在Y上也高于平均，那么乘积为正；
- 如果一个人在X上低于平均，同时在Y上也低于平均，那么乘积仍为正；
- 如果一个人在X上高于平均，但在Y上低于平均，那么乘积为负。

所以：

- **协方差大于0**：两个变量倾向于同方向变化
- **协方差小于0**：两个变量倾向于反方向变化

但协方差有一个问题：它会受变量单位影响，不能直接比较强弱。

## 三、标准化：把不同变量放到同一把尺子上

为了消除单位影响，我们引入标准差 \(S_X\) 和 \(S_Y\)，把协方差标准化，得到Pearson相关系数：

\[
r=\frac{\mathrm{Cov}_{XY}}{S_XS_Y}
\]

展开写就是：

\[
r=\frac{\sum (X-\bar X)(Y-\bar Y)}{(n-1)S_XS_Y}
\]

所以可以用一句话概括：

> **Pearson相关是标准化的协方差。**

这也是为什么 \(r\) 的取值总在 \(-1\) 到 \(+1\) 之间。

## 四、Pearson相关系数的解释

\[
-1 \le r \le 1
\]

- \(r>0\)：正相关
- \(r<0\)：负相关
- \(r=0\)：没有线性相关

并且：

- \(r\) 越接近 \(+1\)，正相关越强
- \(r\) 越接近 \(-1\)，负相关越强
- \(r\) 越接近 \(0\)，线性关系越弱

## 五、一个更形象的理解：两个变量“合不合拍”

你可以把Pearson相关理解成两个变量变化时“合不合拍”。

- 如果IQ高于平均的人，工作记忆也大多高于平均，那么它们很“合拍”，\(r\) 较大；
- 如果IQ高低和工作记忆高低常常对不上，那么它们不太“合拍”，\(r\) 就接近0。

## 六、使用Pearson相关时需要注意什么？

### **1. 没有“样本量必须大于30”的硬性规定**

Pearson相关**没有统一规定“样本量必须大于30才能用”**。  
只要有成对数据，\(r\) 就可以计算。

但样本量越小，结果越不稳定，也越容易受极端值影响。因此，与其死记“30”这个数字，不如记住：

> **Pearson相关能不能放心解释，不只看样本量，还要看散点图、异常值、线性关系是否存在，以及结果是否稳定。**

### **2. 相关不等于因果**

如果发现抑郁与失眠正相关，不能立刻说“抑郁导致失眠”或“失眠导致抑郁”。  
可能还有第三变量，例如长期压力，同时影响二者。

### **3. 极端值会显著影响结果**

Pearson相关对离群值比较敏感。  
因此做相关前，最好先看散点图。

### **4. Pearson相关看的是线性关系**

如果两个变量之间确实有关系，但关系是弯曲的，比如倒U形，那么Pearson相关可能会偏低，甚至接近0。

## 七、小结

这一节最重要的，不是背公式，而是理解这条逻辑：

1. 看每个人在两个变量上是否高于或低于平均水平  
2. 看这两个偏离方向是否一致  
3. 这形成**协方差**  
4. 再把协方差除以两个变量的标准差  
5. 得到**Pearson相关**

一句话概括：

> **Pearson相关是标准化的协方差，它衡量两个连续型变量在线性意义上的共同变化。**

---

# 第二节：等级变量的秩序 —— 秩相关（Spearman & Kendall）

并不是所有心理学数据都适合直接用Pearson相关。很多时候，我们面对的是：

- 变量本身是**顺序数据**
- 数据明显偏态
- 有极端值
- 我们更关心“谁比谁高”，而不是“高了多少分”

这时，我们要从“原始分数的世界”进入“**秩（rank）的世界**”。

## 一、什么是“秩”？

秩就是**排名**。  
例如，对10名被试的孤独感严重程度进行排序：

- 最严重的排第1
- 第二严重的排第2
- …
- 最轻的排第10

把原始分数变成秩以后，分析的重点就变了：

- 原来关心：差了多少分？
- 现在关心：顺序是否一致？

## 二、什么时候该想到秩相关？

适合考虑秩相关的情形包括：

- 变量本身是**顺序变量**
- 原始数据明显偏态
- 有极端值
- 关系更像“总体上越高越高”，但不一定是直线

## 三、一个关键澄清：Spearman不是“把数据变正态”

很多教材会说：“当数据不服从正态分布时，可以改用Spearman相关。”  
这句话不算错，但容易误导。

更准确的说法是：

> **Spearman相关不是通过‘把数据变正态’来替代Pearson，而是通过‘把原始分数改写为秩’，把关注点从‘差多少’改成‘排序是否一致’。**

所以，Spearman能在偏态数据上使用，不是因为秩“变正态”了，而是因为它**不再依赖原始分数的分布形状**。

---

## 四、Spearman \(\rho\)：两个变量的秩是否同步？

### 心理学案例

假设专家对10名被试分别给出：

- **孤独感等级**
- **网络成瘾严重程度等级**

我们关心的是：在孤独感上排得高的人，在网络成瘾上是否也常排得高？

这就是Spearman相关要回答的问题。

### 基本思想

> **Spearman相关，本质上是“对两个变量的秩做Pearson相关”。**

如果把两个变量分别转换成秩 \(R_X\) 和 \(R_Y\)，那么：

\[
\rho = r_{R_XR_Y}
\]

### 无并列名次时的公式

\[
\rho = 1 - \frac{6\sum d^2}{n(n^2-1)}
\]

其中：

- \(d\)：同一个体在两个变量上的秩差
- \(n\)：样本量

### 直觉解释

- 如果两套排名几乎一致，\(\sum d^2\) 很小，\(\rho\) 接近1
- 如果两套排名很不一致，\(\rho\) 下降
- 如果一个变量排前的人总在另一个变量排后，\(\rho\) 接近-1

### Spearman适合什么？

- 顺序变量
- 原始数据偏态明显
- 极端值较多
- 两变量关系更像**单调关系**

这里的**单调关系**是指：

> X越大，Y总体上也越大；或者X越大，Y总体上越小。

它不要求一定是一条直线。

---

## 五、Kendall’s W：多位评分者排得一致吗？

Spearman处理的是**两个变量之间的秩相关**。  
但心理学中还有一种常见问题：

> **如果有多位评分者对同一组对象进行排序，他们彼此一致吗？**

这时常用的指标是 **Kendall’s W（肯德尔和谐系数）**。

### 心理学案例

3位心理咨询师，对5位抑郁症患者的康复进展进行独立排序。  
我们关心的是：这3位咨询师的排序一致吗？

### 计算逻辑

1. 每位评分者给每个对象一个名次  
2. 对同一个对象，把所有评分者给的名次加总，得到**总秩和** \(R_i\)  
3. 看不同对象的总秩和彼此差得大不大

如果评分者很一致，那么“恢复最好”的患者会一直排前面，“恢复最慢”的患者会一直排后面，于是总秩和会拉得很开；如果评分者意见分散，那么总秩和会彼此接近。

### 无并列名次时的公式

设：

- \(m\)：评分者人数
- \(n\)：被排序对象个数
- \(R_i\)：第 \(i\) 个对象的总秩和

则：

\[
W=\frac{12\sum (R_i-\bar R)^2}{m^2(n^3-n)}
\]

其中：

\[
\bar R=\frac{m(n+1)}{2}
\]

### W的解释

\[
0 \le W \le 1
\]

- \(W=1\)：完全一致
- \(W=0\)：几乎不一致

### 一个关键区别

- **Spearman \(\rho\)**：两个变量之间的秩相关
- **Kendall’s W**：多个评分者对同一组对象排序的一致性

---

## 六、小结

这一节最重要的是明白：

> **当我们不再相信“分数差多少”特别重要，而更关心“谁比谁高”的顺序信息时，就进入了秩相关的世界。**

其中：

- **Spearman \(\rho\)** 看两个变量的排序是否一致
- **Kendall’s W** 看多位评分者的排序是否一致

---

# 第三节：混合数据类型的探秘 —— 质量相关与品质相关

前两节处理的是“连续 vs 连续”与“顺序 vs 顺序”。  
但心理学研究中经常会出现：

- 一个变量是**连续型**
- 另一个变量是**类别型**

或者两个变量都是**类别型**。  
这时，思路必须换一下：

> **先判断变量的数据类型，再决定应该选哪一种关系指标。**

## 一、总的判断路线

先问自己三个问题：

1. 两个变量各是什么类型？  
2. 如果是类别变量，是二分还是多分类？  
3. 它是天然分类，还是把连续变量人为切开的结果？

---

## 二、点二列相关：真二分变量 + 连续变量

### 心理学案例

- 是否接受CBT：是 / 否
- 抑郁量表得分：连续分数

### 基本思想

如果我们把“是否接受CBT”编码为：

- 否 = 0
- 是 = 1

那么点二列相关其实就在表达：

> **0组和1组在连续变量上的平均水平是否存在系统差异。**

### 公式

设：

- \(M_1\)：编码为1的那组平均数
- \(M_0\)：编码为0的那组平均数
- \(S_Y\)：连续变量总标准差
- \(p\)：1组比例
- \(q=1-p\)：0组比例

则：

\[
r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq}
\]

### 一个关键结论

> **点二列相关，本质上是Pearson相关的一种特殊形式。**

因为对一个0/1变量与一个连续变量计算Pearson相关，得到的结果恰好就是点二列相关。

---

## 三、二列相关：表面二分，实则连续

有些变量看起来是二分的，但其实是把一个连续变量硬切成两类。  
例如：

- 考试成绩 → 及格 / 不及格
- 焦虑得分 → 高焦虑 / 低焦虑
- 抑郁水平 → 高抑郁 / 低抑郁

这时可考虑**二列相关（biserial correlation）**。

### 但要特别注意

二列相关不是只看到“0/1”就能用。它通常假设：

1. 这个二分变量背后存在一个**连续潜变量**
2. 这个潜变量**近似服从正态分布**

它的公式中用到了正态分布在切点处的概率密度，因此：

> **二列相关带有更强的模型假设，不适用于所有二分变量。**

一句话记忆：

- 本来就只有两类 → **点二列相关**
- 原本连续，后来被切成两类 → **二列相关**

---

## 四、多列相关：表面多分类，实则连续分段

如果一个变量是多分类的，而且这些类别是顺序性的，例如：

- 社会经济地位：低 / 中 / 高
- 抑郁严重程度：轻 / 中 / 重

那么理论上可以考虑**多列相关**。  
但同样要满足前提：

- 背后存在连续潜变量
- 潜变量近似正态分布
- 分类是连续变量被切分后的结果

因此，多列相关在本章只作概念性介绍。对初学者来说，更重要的是知道：

> **连续变量 vs 多分类变量，实际研究中常常更自然地通向方差分析或虚拟变量回归。**

---

## 五、品质相关：类别变量 vs 类别变量

如果两个变量都是类别变量，例如：

- 是否接受心理治疗：是 / 否
- 是否复发：是 / 否

这时讨论的是**品质相关（attribute correlation）**。

### \(\phi\) 系数

当两个变量都是二分变量时，可以用 **\(\phi\) 系数**。  
若2×2列联表为：

|  | 复发 是 | 复发 否 |
|---|---:|---:|
| CBT 是 | \(a\) | \(b\) |
| CBT 否 | \(c\) | \(d\) |

则：

\[
\phi=\frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}
\]

不过在本章中，我们只把它作为卡方检验前的铺垫。

---

## 六、本节小结

这一节最重要的不是记住所有名字，而是记住这张地图：

- 连续 vs 真二分 → **点二列相关**
- 连续 vs 人为二分 → **二列相关**
- 连续 vs 人为多分类顺序变量 → **多列相关（需额外假设）**
- 类别 vs 类别 → **品质相关，如 \(\phi\)**

并且一定要记住：

> **二列相关和多列相关并不是对所有分类变量都适用，它们通常假设该分类变量背后存在被切分的连续潜变量，且该潜变量近似正态分布。**

---

# 第四节：从“相关”到“预测”的飞跃 —— 一元线性回归

前面几节，我们一直在问：

> **两个变量之间有没有关系？**

但心理学研究往往还想更进一步：

> **如果我知道一个人的X值，能不能预测他的Y值？**

这就是从“相关”迈向“回归”的关键一步。

## 一、什么是一元线性回归？

一元线性回归研究的是：

> **用一个自变量 \(X\)，去预测一个因变量 \(Y\)。**

例如：

- 用**尽责性人格得分**预测**高考成绩**
- 用**焦虑水平**预测**睡眠质量**
- 用**工作记忆容量**预测**问题解决表现**

如果我们认为X与Y之间大致呈线性关系，就可以写出：

\[
\hat{Y}=a+bX
\]

其中：

- \(\hat{Y}\)：预测值
- \(a\)：截距
- \(b\)：回归系数（斜率）

## 二、这条式子怎么理解？

- **\(\hat{Y}\)**：模型预测出来的Y
- **\(a\)**：当 \(X=0\) 时预测的Y
- **\(b\)**：X每增加1单位，预测的Y平均变化多少

例如：

\[
\hat{Y}=420+2.5X
\]

表示尽责性每增加1分，预测高考成绩平均增加2.5分。

## 三、为什么是这条线？—— 最小二乘法（OLS）

散点图上有很多点，为什么偏偏选这条线？

因为它让所有观测点的预测误差平方和最小：

\[
\sum (Y-\hat{Y})^2
\]

其中：

\[
e=Y-\hat{Y}
\]

叫做**残差**，表示真实分数与预测分数的差。

最小二乘法的思想就是：

> **在所有可能的直线中，找一条让整体预测误差尽可能小的线。**

## 四、回归系数 \(b\) 与截距 \(a\)

一元线性回归中：

\[
b=\frac{\sum (X-\bar X)(Y-\bar Y)}{\sum (X-\bar X)^2}
\]

\[
a=\bar Y-b\bar X
\]

这说明：

- \(b\) 本质上反映“Y跟着X变化的程度”
- 回归线一定经过 \((\bar X,\bar Y)\)

## 五、回归和相关的关系

一元线性回归中，有一个非常重要的关系：

\[
b=r\cdot \frac{S_Y}{S_X}
\]

这意味着：

> **回归斜率 = 相关强度 × 单位换算**

所以：

- **相关系数 \(r\)** 是无量纲的
- **回归系数 \(b\)** 带有原始单位

如果把X和Y都标准化，那么：

\[
\beta = r
\]

也就是说，在标准化变量上做一元回归时，标准化回归系数就等于Pearson相关系数。

## 六、解释率：\(R^2\)

回归里另一个非常重要的量是：

\[
R^2
\]

它表示：

> **Y的总变异中，有多大比例可以由X解释。**

例如：

\[
R^2=0.36
\]

表示高考成绩的个体差异中，大约有36%可以由尽责性得分解释。

在**一元线性回归**中，还有一个漂亮的结论：

\[
R^2=r^2
\]

这说明回归不是抛弃了相关，而是把相关推进成了预测与解释。

## 七、回归方程算出来以后，还要问：它可靠吗？

样本中总能算出一条回归线，但统计学不会满足于“算出来了”，还会继续追问：

> **这条线是真实反映总体趋势，还是样本偶然波动造成的？**

因此，一元线性回归中最核心的检验是：

\[
H_0:\beta=0
\]

这里的 \(\beta\) 表示总体回归系数。  
这个原假设的意思是：

> **在总体中，X对Y没有线性预测作用。**

如果检验结果表明可以拒绝这个原假设，就说明：

> **样本中观察到的回归关系，不太可能只是随机波动造成的。**

### 这和相关检验有什么关系？

在一元线性回归中，检验“回归斜率是否为0”，与检验“Pearson相关是否为0”，本质上是相通的。

因为：

\[
b=r\cdot \frac{S_Y}{S_X}
\]

所以：

- \(r=0 \Rightarrow b=0\)
- \(b=0 \Rightarrow r=0\)

### 一个非常重要的提醒

即使一个回归系数显著，也不等于它一定有很强的预测力。

- **显著**：说明关系不像是纯偶然
- **\(R^2\)大不大**：说明它究竟解释了多少

因此，读回归结果时至少要同时看两件事：

- **是否显著**
- **解释率有多大**

## 八、本节小结

这一节最重要的是理解：

- 相关只告诉你“有关系”
- 回归把这种关系写成预测方程
- 最小二乘法选出最佳拟合线
- 一元回归中  
  \[
  b=r\cdot \frac{S_Y}{S_X}
  \]
- 解释率满足  
  \[
  R^2=r^2
  \]

所以，一元线性回归可以看作是在“相关存在”的基础上，把关系推进成了**可用于预测的线性规则**。

---

# 第五节（高光时刻）：万宗归一 —— 当回归遇上点二列相关

现在我们进入本章的统一时刻。

前面我们已经学过：

- 点二列相关：处理二分变量与连续变量
- 一元线性回归：用X预测Y

那么问题来了：

> **如果回归里的X不是连续变量，而是一个只有两个水平的类别变量，会怎么样？**

答案是：不仅能做，而且会出现一个极其漂亮的统一：

> **当X是0/1虚拟变量时，一元线性回归与点二列相关本质上是同一件事。**

## 一、类别变量如何进入回归？—— 虚拟变量

如果一个变量只有两个类别，例如：

- 是否接受CBT：否 / 是

我们可以把它编码为：

- \(X=0\)：未接受CBT
- \(X=1\)：接受CBT

这就是**虚拟变量（dummy variable）**。

然后依然写回归方程：

\[
\hat{Y}=a+bX
\]

## 二、当 \(X\) 只能取0或1时，回归方程意味着什么？

分别代入：

### 当 \(X=0\) 时：

\[
\hat{Y}=a
\]

### 当 \(X=1\) 时：

\[
\hat{Y}=a+b
\]

所以：

- 编码为0的那组，预测值是 \(a\)
- 编码为1的那组，预测值是 \(a+b\)

也就是说，这条“回归线”其实只是在确定两个点：

- 0组的预测均值
- 1组的预测均值

于是，在最小二乘法下可以得到：

\[
a=M_0
\]

\[
a+b=M_1
\]

因此：

\[
b=M_1-M_0
\]

这就是本节第一个核心结论：

> **当X是0/1虚拟变量时，回归斜率 \(b\) 就等于两组均值之差。**

## 三、心理学例子：CBT干预与抑郁得分

设：

- \(X=0\)：未接受CBT
- \(X=1\)：接受CBT
- \(Y\)：8周后的抑郁量表得分

样本结果：

- 未接受CBT组平均分：\(M_0=24\)
- 接受CBT组平均分：\(M_1=18\)

则回归方程为：

\[
\hat{Y}=24-6X
\]

因为：

- \(a=24\)
- \(b=18-24=-6\)

这说明：

> **接受CBT这一组，比未接受CBT这一组，平均抑郁分低6分。**

## 四、这和点二列相关有什么关系？

点二列相关公式为：

\[
r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq}
\]

而在虚拟变量回归中：

\[
b=M_1-M_0
\]

所以两者共享同一个核心信息：**两组均值差**。

不同的是：

- \(b\) 保留了原始单位
- \(r_{pb}\) 把这种差异进一步标准化了

所以可以说：

> **回归在说“两组差了多少原始分数单位”；  
> 点二列相关在说“这种差异有多强，用标准化方式表示”。**

## 五、更深的统一：\(R^2=r_{pb}^2\)

在一元线性回归中：

\[
R^2=r^2
\]

当 \(X\) 是一个0/1虚拟变量时，这里的 \(r\) 正是点二列相关：

\[
r=r_{pb}
\]

于是：

\[
R^2=r_{pb}^2
\]

这就是本节最关键的第二个结论：

> **两水平虚拟变量的一元回归，其解释率完全等于点二列相关的平方。**

## 六、它和独立样本t检验又是什么关系？

如果虚拟变量回归本质上是在比较两组均值，那么它当然也和独立样本t检验相通。

独立样本t检验问的是：

> **两组均值是否显著不同？**

而虚拟变量回归中检验的是：

\[
H_0:b=0
\]

由于：

\[
b=M_1-M_0
\]

所以这其实就是在问：

> **两组均值差是否为0？**

因此在这个特殊场景下：

- **点二列相关**
- **两水平虚拟变量回归**
- **独立样本t检验**

并不是三套彼此无关的方法，而是：

> **同一个统计事实的三种表达方式。**

## 七、为什么这体现了一般线性模型的统一性？

初学统计时，学生常觉得：

- 相关是一章
- t检验是一章
- 回归是一章
- 方差分析又是一章

它们看起来像四套彼此独立的工具。  
但这节告诉我们，不是这样。

当我们研究“一个二分类变量 + 一个连续结果变量”时：

- 可以把它看成**点二列相关**
- 可以把它看成**两组均值比较**
- 也可以写成**0/1虚拟变量的一元回归**

它们的核心信息其实是统一的。

这就是一般线性模型（GLM）的精神：

> **许多看起来不同的方法，底层都在处理‘解释变量如何系统影响结果变量’这一件事。**

## 八、本节小结

这一节最值得带走的四句话是：

1. **类别变量也能进入回归**，只要把二分类变量编码成0/1  
2. **当X是0/1变量时，回归线连接的是两组均值**  
3. **回归斜率就是两组均值差**  
4. **一元回归中，解释率满足**  
   \[
   R^2=r_{pb}^2
   \]

因此：

> **点二列相关、两水平虚拟变量回归、独立样本t检验，底层逻辑是相通的。**

---

# 本章总结：从“关系”走向“统一”

这一章的主线可以概括为：

- 当两个变量都是连续型时，用 **Pearson相关** 看线性共同变化
- 当变量是顺序型，或更关心排序一致性时，用 **Spearman** 与 **Kendall**
- 当变量类型混合时，根据数据类型选择 **点二列相关、二列相关、多列相关或品质相关**
- 当我们不再只满足于“有关系”，而是想建立预测规则时，就进入 **一元线性回归**
- 而当自变量是一个两水平类别变量时，回归、点二列相关、t检验又重新汇合到一起

所以，这一章真正想教给你的，不只是几个公式，而是一种看问题的方法：

> **先判断变量类型，再选择合适的关系指标；再进一步思考，这种关系能否写成预测模型；最后看到，不同统计方法其实共享同一套底层逻辑。**

---

# 补充材料：核心公式推导与统计检验（供学有余力的同学阅读）

下面这部分不要求所有同学一次性全部掌握，但它能帮助你把本章真正打通。

---

## 补充材料A：为什么Pearson相关是“标准化的协方差”？

协方差为：

\[
\mathrm{Cov}_{XY}=\frac{\sum (X-\bar X)(Y-\bar Y)}{n-1}
\]

Pearson相关定义为：

\[
r=\frac{\mathrm{Cov}_{XY}}{S_XS_Y}
\]

代入协方差表达式：

\[
r=\frac{\sum (X-\bar X)(Y-\bar Y)}{(n-1)S_XS_Y}
\]

因此，Pearson相关就是把协方差除以两个变量的标准差，从而消除单位影响。

---

## 补充材料B：为什么Spearman可以看成“对秩做Pearson”？

把原始变量 \(X,Y\) 分别替换为秩变量 \(R_X,R_Y\)，则：

\[
\rho = r_{R_XR_Y}
\]

也就是说，Spearman不是在原始分数上做Pearson，而是在**秩**上做Pearson。  
因此它关注的不是“原始距离”，而是“排序一致性”。

---

## 补充材料C：Kendall’s W 的计算来源

设：

- \(m\)：评分者人数
- \(n\)：对象数
- \(R_i\)：第 \(i\) 个对象的总秩和
- \(\bar R=\frac{m(n+1)}{2}\)

先定义：

\[
S=\sum (R_i-\bar R)^2
\]

如果评分者越一致，则总秩和离散程度越大；如果评分者越不一致，则总秩和越接近。

因此定义：

\[
W=\frac{12S}{m^2(n^3-n)}
\]

该式将总秩和离散程度标准化到0到1之间。

---

## 补充材料D：点二列相关公式的来历

设二分变量 \(X\in\{0,1\}\)，其中：

- \(P(X=1)=p\)
- \(P(X=0)=q\)

则：

\[
\bar X = p
\]

并且可证明：

\[
S_X=\sqrt{pq}
\]

对一个0/1变量与连续变量 \(Y\) 做Pearson相关：

\[
r=\frac{\mathrm{Cov}(X,Y)}{S_XS_Y}
\]

进一步展开后可得：

\[
r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq}
\]

这说明：

> **点二列相关并不是一个神秘新公式，而就是Pearson相关在二分变量情形下的特殊化。**

---

## 补充材料E：一元线性回归中 \(b\) 与 \(a\) 的推导结果

最小二乘法最小化：

\[
\sum (Y-\hat Y)^2=\sum (Y-a-bX)^2
\]

对 \(a\) 和 \(b\) 求偏导并令其为0，可得到正则方程，最终解为：

\[
b=\frac{\sum (X-\bar X)(Y-\bar Y)}{\sum (X-\bar X)^2}
\]

\[
a=\bar Y-b\bar X
\]

---

## 补充材料F：为什么 \(b=r\frac{S_Y}{S_X}\)？

由Pearson相关：

\[
r=\frac{\sum (X-\bar X)(Y-\bar Y)}{(n-1)S_XS_Y}
\]

由回归斜率：

\[
b=\frac{\sum (X-\bar X)(Y-\bar Y)}{\sum (X-\bar X)^2}
\]

而：

\[
\sum (X-\bar X)^2=(n-1)S_X^2
\]

代入可得：

\[
b=\frac{r(n-1)S_XS_Y}{(n-1)S_X^2}=r\frac{S_Y}{S_X}
\]

---

## 补充材料G：为什么一元回归中 \(R^2=r^2\)？

在一元线性回归中，拟合值 \(\hat Y\) 与 \(Y\) 之间的相关平方，等于模型解释的总变异比例。  
对只有一个自变量的情形，可以证明：

\[
R^2=r^2
\]

其中 \(r\) 是X与Y之间的Pearson相关。  
若X是0/1变量，则这里的 \(r\) 就是点二列相关 \(r_{pb}\)。

---

## 补充材料H：一元回归的统计检验

在一元回归中，最核心的假设检验是：

\[
H_0:\beta=0
\]

样本中的检验统计量通常写作：

\[
t=\frac{b}{SE_b}
\]

其中：

- \(b\)：样本回归系数
- \(SE_b\)：回归系数的标准误
- 自由度：  
  \[
  df=n-2
  \]

如果t值足够大，或者对应的p值足够小，我们就拒绝 \(H_0\)，认为X对Y具有显著线性预测作用。

---

## 补充材料I：为什么“斜率检验 = 相关检验”？

由：

\[
b=r\frac{S_Y}{S_X}
\]

可知：

- \(r=0 \Leftrightarrow b=0\)

因此，在一元线性回归中：

- 检验 \(H_0:\beta=0\)
- 检验 \(H_0:\rho=0\)

本质上是同一个问题。

进一步还可以证明，在一元回归中：

\[
F=t^2
\]

这再次说明回归检验、相关检验与均值差异检验之间存在深层统一。

---

## 补充材料J：为什么两水平虚拟变量回归等价于点二列相关？

设 \(X=0/1\)。

回归方程：

\[
\hat Y=a+bX
\]

代入两组可得：

- \(X=0\)：  
  \[
  \hat Y=a=M_0
  \]
- \(X=1\)：  
  \[
  \hat Y=a+b=M_1
  \]

所以：

\[
b=M_1-M_0
\]

另一方面，点二列相关为：

\[
r_{pb}=\frac{M_1-M_0}{S_Y}\sqrt{pq}
\]

可见二者共享同一个核心信息：两组均值差。  
再结合一元回归中 \(R^2=r^2\)，即可得到：

\[
R^2=r_{pb}^2
\]

因此：

> **两水平虚拟变量回归与点二列相关是同一逻辑的不同表达。**

---