: 如何理解数据的随机性? 数据随机性中所说的数据主要是指通过抽样所得到的那些数据,也就说,是推断统计所使用的那些数据。既然是从总体中抽取的一部分样本,那么样本数据就必然存在不确定性:多次抽取样本,每次得到的样本数据会有所不同。但是,这里所说的随机性与不确定性还是有所区别的,为了数据分析的需要,数据的随机性要求数据的获取尽可能地排除人为干扰的影响,尽可能地排除系统误差的影响。比如,可以参见《义务教育数学课程标准》的例22,这个例子是在"综合与实践"的内容中: 让学生记录自己在一个星期内每天上学途中所需要的时间,并从这些数据中发现有用的信息。 针对随机性,这个例子的"说明"中特别强调:事先调整家里钟表的时间,使其和学校钟表的时间保持一致;在调查期间需要保证每天上学途中的行为尽量一致。可以看到,前一个要求是为了避免系统误差,后一个要求是为了排除人为干扰。之所以这样要求的理由,我们在下一个问题"平均数的意义是什么"中再详细讨论。 为了在课堂上容易实施,在《义务教育数学课程标准》中还给出了一个简单易行的例子来解释如何引导学生理解数据的随机性,这就是例40: 袋中装有4个红球和1个白球。只告诉学生袋中球的颜色为红色和白色,不告诉他们红球数目与白球数目,让学生通过多次有放回的摸球,统计摸出红球和白球的数量及各自所占比例,由此估计袋中红球和白球数目的情况。 针对学生理解能力的不同,可以确定估计内容不同。比如对于低年级的学生,可以估计红球多还是白球多;对于高年级的学生可以估计红球(或者白球)所占比例,或者进一步,分析所占比例之和为什么等于1;等等。在教学过程中,最好让学生参与其中亲身体验,比如,分小组摸球、每一个小组都有放回地摸20次。在大多数情况下,每个小组摸球的结果是不同的,这就是数据的随机性;但通过摸球的结果可以对袋子中球的情况进行估计,这就是统计推断。 通常的估计方法是这样的,如果一个小组摸球 n 次,其中摸到红球m次,那么这个小组就可以估计红球所占比例为m/n,这种估计被称为最大似然估计。当然,我们还可以构建其他的估计方法,详细讨论参见附录的话题29. 显然也是因为随机性,不一定每个小组都恰好估计出红球所占比例为4/5。但因为4/5 = 8/10,那么,估计红球所占比例在7/10和9/10之间的可能性就比较大了[^28]。这个可能性的大小与摸球的次数有关,一般来说,摸球的次数越多则可能性越大:为了使可能性达到80% 左右,应当摸球在20次以上;为了使可能性达到90% 左右,应当摸球在60次以上。这就是通过抽样推断总体的过程,或者说,是通过样本频率估计概率的过程[^29]。除了概率以外,平均数的估计也是非常重要的。