第三章 集中量数
如何用少量数字来概括数据?
用少数几个数字概括大量数字是日常生活中常见的。
比如说,重庆人的平均收入是多少、两地区的收入差距是多少、高收入的人占人口的百分比等。
这些“平均”、“差距”或者百分比都是用来概括或汇总的数字。
由于定性变量主要是计数,比较简单,其常用的概括就是比例活百分比,所以下面主要介绍关于定量变量的数字描述。
除了图表之外,可以用少量所谓数据汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。
这些数字是从样本得来的,因而也是样本的函数,任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。
样本本身是随机的,从同一个总体抽出来的不同样本肯定不一样。因此,对于不同数据(即样本的实现),统计量的取值也不一样,也就是样本的随机性决定了统计量的随机性。
在许多情况,从样本产生的一些统计量的实现值反映了无法观测到的某些总体参数的大小,这时统计量就可以用来作为这些参数的估计。
以后还要提到,作为样本某种代表的一些统计量还可以用来检验样本和假设的总体释放一致。一些统计量前面有时加上“样本”二字,以区别于总体的同名参数,比如后面的从样本产生的均值和标准差严格来说应该叫做“样本均值”和“样本标准差”,以区别于总体的均值和标准差。但在不会混淆时可以只说“均值”和“标准差”。
数据的‘位置’
人们常说哪些地方穷,哪个地方富,也常说,哪个国家人高,哪个国家人矮。
说这些话的人绝对不是说一个地方的所有人都比另一个地方的所有人富,也不是说,一个国家的人都比另一个国家的所有人都高。他们仅仅省略了“平均起来”,“大部分”等词语。这些说法实际上是关于数据中某变量观测值的“中心位置”或数据分布的中心(center或center tendency)的某种表述。
这种与“位置”有关的统计量称为位置统计量(location statistic)。位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数。
最常用的位置统计量就是小学所学到的算术平均值,它在统计中叫做均值(mean),严格地说叫做样本均值(sample mean)。
样本均值是把一个变量的所有观测值求和再除以观测值的数目。
我们可以计算第二章例1中富豪的平均年龄,已知1191个富豪的年龄,利用R代码
可得均值为62.4岁。公式中的选项na.rm=T表示去掉缺失值(即不知道的年龄)再求平均。
虽然均值包含了样本的很多信息,但它容易被少数极端值所影响。
比如,一个数据输入员的疏忽很可能造成某些数目出错,比如多敲入若干0,这时均值就可能变成很大。
但这种数据错误不会对该数据按升幂或降幂排练的中间一些数目影响太大。
数据中间的一个(或两个数的平均)就是(样本)中位数(median)。它是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。利用R代码
可得富豪年龄的中位数是62岁。
由于中位数不易被极端值影响,所以称中位数比均值稳健(robust)。
比如一千个月收入为2000元的和月收入为一千万元的一个富翁住在同一个区域,则该区域人们的“平均”月收入用均值计算为11988.01元,而用中位数计算为2000元,相差近6倍。
中位数在数据大小顺序中居中,而上下四分位数(或称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列)数据的上下四分之一的地方。一般地还称上四分位数为75百分位数(75 percentile,有约75%的观测值小于它),下四分位数为25百分位数(有约25%的观测值小于它)。
有了25百分位数和75百分位数的概念,人们就不难理解什么是任意的k百分位数(k-percentile)了(有约k%的观测值小于它)。
如果令$\alpha=k%$,则k百分位数也称为$\alpha$分位数($\alpha$-quantile)。显然,中位数是50百分位数或0.5分位数。
根据上一章的例1数据,富人的两个四分位点分布为52和72岁,可用如下代码计算。
除了中位数和均值之外,还有样本中出现最多的某一数目,称为众数(mode)。
上一章的例1的数据中富豪年龄的众数为60岁,一共有41位这个年龄的人,实现代码如下:
注意,如果年龄精确到分钟甚至秒,则不大可能会有众数。
众数反映的信息也不多,又不一定唯一,在连续变量的情况,如果不做过分四舍五入,可能没有重复的数据,这时也不可能有众数。
众数用得不如均值和中位数普遍。
在定性变量中,由于纪录的是频数,因此众数用得多一些。比如第二章在图5关于10个国家拥有大公司的数目的条形图中,众数就是由美国所代表,它一共拥有524家大公司。
应用算术平均数和调和平均数求平均速度的局限性
例题1 在一个学习试验中,统计了六名被试完成相同的10道作业题所用时间分别为0.8h,1.0h,1.2h,1.5h,2.5h,5.0h.计算这6名被试平均完成这10道作业题的速度.
一般的教育与心理统计学教材中该类问题的解法是,先计算六名被试在单位时间内完成的作业题数目:X1=10/O.8=25/2,X2=10,X3=10/1.2=25/3,X4=10/1.5=20/3,X5=10/2.5=4,X6=10/5=2。再把N=6和$\sum1/x_i$,代入调和平均数公式得: $M_H$=1/(1/6×6/5)=5(题/h). 即6名被试平均完成作业的速度是5题/h.且有S1=5×(0.8+1.0+1.2+1.5+2.5+5) =60(题)=S, 符合实际.这时的算术平均数为M=(X1+X2+X3+X4+X5+X6)/6=7.25(题/h).有:S2=7.25x(0.8+1.0+1.2+1.5+2.5+5)=87(题)$\neq$60题,不符合实际.这是否说明只能用调
和平均数求平均速度,而不能用算术平均数呢?
例题2 若在上面的学习试验中,6名被试在2h的解题量,依次为24题,20题,16题,12题,8题,4题.试问这6名被试平均每小时解多少题?
按照与上面相同的求法,先求六名被试单位时间内的解题数目X1=24/2=12,X2=20/2=10,X3=16/2=8,X4=12/2=6,X5=8/2=4,X6=4/2=2.然后用调和平均数求6名被试平均每小时的解题数目,得$M_H$=1/[(1/12+1/10+1/8+1/6+1/4+1/2)/6]=720/147=4.9(题/h) .
不难验证该结果不正确.因为原题中6名被试的解题总量为S=24+20+16+12+8+4=84(题).若6名被试平均解题速4.9题,则在2h内,他们解题的总量应是: S1=4.9×2×6=58.8(题)$\neq$S=84题.可是其算术平均数为M=(X1+X2+X3+X4+X5+X6)/6=(12+10+8+6+4+2)/6=7(题/h).有S2=7x2×6=84(题)=S符合题意.可见结果与例题1正好相反,即用调和平均数不行,而用算术平均数不对….
物理上平均速度的概念:平均速度=总路程/总时间.借鉴物理上定义平均速度的方法,这里可将平均速度的公式定义为
平均速度=总工作量/总时间=$(X_1t_1+X_2t_2+⋯+X_Nt_N)/(t_1+t_2+⋯+t_N)$
式中X1,X2,⋯,XN分别表示各段过程的平均速度,即各段过程中或不同被试单位时间完成的工作量,如上面例题中6名被试单位时间完成的题目数;t1,⋯,tN抽表示完成各段工作任务或不同被试所需要的时间,而X1t1,X2t2,⋯,XNtN表示各段工作量或不同被试所完成的工作量.
分析一般形式的平均速度公式,我们发现有两种非常有趣的现象:
(1) 当完成各段试作用时间一定,即t1=t2=⋯=tN时,这时有平均速度=$(X_1t_1+X_2t_2+⋯+X_Nt_N)/(t_1+t_2+⋯+t_N)=$
$(X_1+X_2+⋯+X_N)t/N_t=(X_1+X_2+⋯+X_N)/N$即平均速度等于速度的算术平均值.例题2中6名被试都是工作了两个小时,恰好满足这个条件,所以用算术平均值求解正好符合实际.(2) 当各阶段工作量一定或各被试完成相等工作量,即$X_1t_1=X_2t_2=⋯=X_Nt_N=Xt$时,则平均速度=$(X_1t_1+X_2t_2+⋯+X_Nt_N)/(t_1+t_2+⋯+t_N)$
$=NX_t/(t_1+t_2+⋯+t_N)=1/[1/N(1/X_1+1/X_2+⋯+1/X_N)]$,这就是调和平均数公式.可见调和平均数只是一般平均速度公的一种特殊情况.且只有在满足这第二种情况的条件下,用调和平均数才能得到正确的答案.如在例题1中,各被试都完成同样的10道作业题工作量相等,满足这里的条件,故用调和平均数求解是正确的,而用算术平均数则不行.
当X1=X2=⋯=XN=X时,则恒有平均速度=总工作量/总时间=$(X_1t_1+X_2t_2+⋯+X_Nt_N)/(t_1+t_2+⋯+t_N)$
$=X(t_1+t_2+⋯+t_N)/(t_1+t_2+⋯+t_N)=X$,这是指各被试单位时间做题数目相同的情况或各阶段工作进展状况一样,显然这时的平均速度也就是每个被试的解题速度或各阶段工作的速度.
应用调和平均数求平均速度是有条件的,这就是各段工作量要相等或各被试都完成相同的工作量(需要的时间可以不同) ,如例题中的6名学生在不同的时间内都完成了相同的10道作业题,就满足这一条件,所以用调和平均数求解符合实际.离开这一条件,应用调和平均数求平均速度就会出现错误,并会误导学生…
[1] 齐春法, 张磊. 应用算术平均数和调和平均数求平均速度的局限性[J]. 聊城大学学报:自然科学版, 2006, 19(1):88-89. PDF下载