You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

14 lines
3.2 KiB

3 weeks ago
如何理解数据的随机性?
数据随机性中所说的数据主要是指通过抽样所得到的那些数据也就说是推断统计所使用的那些数据。既然是从总体中抽取的一部分样本那么样本数据就必然存在不确定性多次抽取样本每次得到的样本数据会有所不同。但是这里所说的随机性与不确定性还是有所区别的为了数据分析的需要数据的随机性要求数据的获取尽可能地排除人为干扰的影响尽可能地排除系统误差的影响。比如可以参见《义务教育数学课程标准》的例22这个例子是在"综合与实践"的内容中:
让学生记录自己在一个星期内每天上学途中所需要的时间,并从这些数据中发现有用的信息。
针对随机性,这个例子的"说明"中特别强调:事先调整家里钟表的时间,使其和学校钟表的时间保持一致;在调查期间需要保证每天上学途中的行为尽量一致。可以看到,前一个要求是为了避免系统误差,后一个要求是为了排除人为干扰。之所以这样要求的理由,我们在下一个问题"平均数的意义是什么"中再详细讨论。
为了在课堂上容易实施在《义务教育数学课程标准》中还给出了一个简单易行的例子来解释如何引导学生理解数据的随机性这就是例40
袋中装有4个红球和1个白球。只告诉学生袋中球的颜色为红色和白色不告诉他们红球数目与白球数目让学生通过多次有放回的摸球统计摸出红球和白球的数量及各自所占比例由此估计袋中红球和白球数目的情况。
针对学生理解能力的不同可以确定估计内容不同。比如对于低年级的学生可以估计红球多还是白球多对于高年级的学生可以估计红球或者白球所占比例或者进一步分析所占比例之和为什么等于1等等。在教学过程中最好让学生参与其中亲身体验比如分小组摸球、每一个小组都有放回地摸20次。在大多数情况下每个小组摸球的结果是不同的这就是数据的随机性但通过摸球的结果可以对袋子中球的情况进行估计这就是统计推断。
通常的估计方法是这样的,如果一个小组摸球 n
其中摸到红球m次那么这个小组就可以估计红球所占比例为m/n这种估计被称为最大似然估计。当然我们还可以构建其他的估计方法详细讨论参见附录的话题29.
显然也是因为随机性不一定每个小组都恰好估计出红球所占比例为4/5。但因为4/5
=
8/10那么估计红球所占比例在7/10和9/10之间的可能性就比较大了[^28]。这个可能性的大小与摸球的次数有关一般来说摸球的次数越多则可能性越大为了使可能性达到80%
左右应当摸球在20次以上为了使可能性达到90%
左右应当摸球在60次以上。这就是通过抽样推断总体的过程或者说是通过样本频率估计概率的过程[^29]。除了概率以外,平均数的估计也是非常重要的。