简单线性回归与独立样本t检验
暗色模式
--- ### 📚 简单线性回归与独立样本 t 检验 #### 一、 核心结论(先看结果) 我们要理解一个非常重要的统计学结论: > **两独立样本 t 检验,本质上等价于一个只有 0-1 虚拟变量的简单线性回归。** 它们在数学上是完全等价的。算出来的 t 值、p 值和结论完全一致。 --- #### 二、 问题背景:比较两组均值 假设我们要研究:**男生和女生的平均数学成绩是否不同?** 我们有两组独立样本: - **第一组(组 1,如男生):** 样本量 $n_1$,样本均值 $\bar y_1$,样本方差 $s_1^2$。 - **第二组(组 2,如女生):** 样本量 $n_2$,样本均值 $\bar y_2$,样本方差 $s_2^2$。 **目标:** 检验原假设 $H_0: \mu_1 = \mu_2$(两组总体均值相等)。 --- #### 三、 独立样本 t 检验(复习) 如果假设两组总体方差相同(方差齐性),我们使用合并方差(Pooled Variance)t 检验。 1. **合并方差 ($s_p^2$):** $$ s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2} $$ 这是对两组方差的加权平均,权重是自由度 $n-1$。 2. **t 统计量:** $$ t = \frac{\bar y_1 - \bar y_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$ 自由度 $df = n_1 + n_2 - 2$。 --- #### 四、 直观理解:回归就是分组平均 在引入复杂的数学公式前,先建立直观认知。 1. **定义虚拟变量 $X$:** - 男生:$X = 0$ - 女生:$X = 1$ 2. **最合理的预测:** - 如果看到 $X=0$(男生),你预测成绩是多少?答:男生平均分 $\bar y_1$。 - 如果看到 $X=1$(女生),你预测成绩是多少?答:女生平均分 $\bar y_2$。 3. **写成公式:** 我们希望找到一个公式 $Y = \beta_0 + \beta_1 X$ 来同时表达这两件事。 - 当 $X=0$ 时,$Y = \beta_0$。为了等于 $\bar y_1$,所以 $\beta_0 = \bar y_1$。 - 当 $X=1$ 时,$Y = \beta_0 + \beta_1$。为了等于 $\bar y_2$,所以 $\beta_1 = \bar y_2 - \bar y_1$。 **结论:** 回归系数 $\beta_1$ 就是两组均值之差。检验 $\beta_1 = 0$ 就等同于检验两组均值是否相等。 --- #### 五、 OLS 推导版(最小二乘法) 现在我们用标准的最小二乘法(OLS)来推导为什么 $\hat{\beta}_1 = \bar{y}_2 - \bar{y}_1$。 **OLS 思想:** 找到参数 $\beta_0, \beta_1$,使得残差平方和 $S(\beta_0, \beta_1) = \sum (Y_i - \beta_0 - \beta_1 X_i)^2$ 最小。 1. **一阶条件(求偏导):** 对 $\beta_0$ 和 $\beta_1$ 求偏导并令其为 0。 - $\sum (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0$ - $\sum X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0$ 2. **代入虚拟变量特性:** 由于 $X$ 只有 0 和 1,我们可以利用分组数据的性质。 - 设第二组比例 $p = n_2 / n$,则 $\bar{X} = p$。 - 计算协方差 $\text{Cov}(X, Y)$ 和方差 $\text{Var}(X)$。 3. **推导结果:** 对于 0-1 变量,可以推导出: $$ \hat{\beta}_1 = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} = \bar{y}_2 - \bar{y}_1 $$ $$ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} = \bar{y}_1 $$ --- #### 六、 矩阵形式 OLS 推导版(进阶课堂版) 这是统计学中更通用的推导方式,适用于任何线性回归,包括我们的特殊情况。 **1. 模型矩阵形式** 将模型写成矩阵形式:$Y = X\beta + \varepsilon$ - **因变量矩阵 $Y$:** $$ \begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix} $$ - **设计矩阵 $X$ (数据矩阵):** 第一列全是 1(对应截距 $\beta_0$),第二列是虚拟变量 $X_i$。 $$ X = \begin{bmatrix} 1 & X_1 \\ 1 & X_2 \\ \vdots & \vdots \\ 1 & X_n \end{bmatrix} $$ - **参数向量 $\beta$:** $$ \beta = \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix} $$ **2. OLS 估计公式** 最小二乘解为: $$ \hat{\beta} = (X^T X)^{-1} X^T Y $$ **3. 针对 0-1 变量的具体计算** 因为 $X_i$ 只有 0 或 1,我们可以手动计算 $X^T X$ 和 $X^T Y$。 - **计算 $X^T X$:** $$ X^T X = \begin{bmatrix} n & \sum X_i \\ \sum X_i & \sum X_i^2 \end{bmatrix} $$ 由于 $X_i$ 是 0 或 1,$\sum X_i = n_2$(组 2 的样本数),且 $\sum X_i^2 = \sum X_i = n_2$(因为 $1^2=1, 0^2=0$)。 所以: $$ X^T X = \begin{bmatrix} n & n_2 \\ n_2 & n_2 \end{bmatrix} $$ - **计算 $X^T Y$:** $$ X^T Y = \begin{bmatrix} \sum Y_i \\ \sum X_i Y_i \end{bmatrix} $$ 其中 $\sum X_i Y_i$ 只包含组 2($X=1$)的 $Y$ 值之和。 - **求逆与结果:** 虽然求逆过程涉及矩阵代数,但最终解会收敛为: $$ \hat{\beta}_0 = \bar{y}_1 $$ $$ \hat{\beta}_1 = \bar{y}_2 - \bar{y}_1 $$ **教学意义:** 这证明了无论用标量公式还是矩阵公式,回归在处理分类变量时,本质上就是在计算组间均值的差异。 --- #### 七、 残差平方和(SSE)与误差方差 这是两者等价的另一个关键证据。 1. **回归的 SSE:** $$ SSE = \sum (Y_i - \hat{Y}_i)^2 $$ - 组 1 的预测值是 $\bar{y}_1$,所以残差平方和是 $(n_1 - 1)s_1^2$。 - 组 2 的预测值是 $\bar{y}_2$,所以残差平方和是 $(n_2 - 1)s_2^2$。 - 因此:$SSE = (n_1 - 1)s_1^2 + (n_2 - 1)s_2^2$。 2. **均方误差 (MSE):** $$ MSE = \frac{SSE}{n - 2} $$ 这里的自由度是 $n-2$,因为我们估计了两个参数($\beta_0, \beta_1$)。 $$ MSE = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$ **这正好就是 t 检验中的合并方差 $s_p^2$!** --- #### 八、 最终结论 - **t 值一致:** 回归系数的 t 检验统计量分母是标准误,代入 MSE 后,公式与独立样本 t 检验完全一致。 - **自由度一致:** $n-2 = n_1 + n_2 - 2$。 - **本质统一:** > **独立样本 t 检验 = 带一个 0-1 虚拟变量的简单线性回归** **一句话总结:** t 检验是在比较两组平均数,回归是在估计组别带来的平均变化,它们本质上是同一个统计问题的两种语言。