dsProject/dsRag/Txt/MATH_1_140.txt

概率的定义和基于概率模型的估计
在上一个话题中，涉及到了概率。在这个话题中，我们将从逻辑的角度讨论概率，然后再用一个例子说明：如何利用逻辑结果进行数据分析，从而得到合理的统计学的估计方法。这个分析过程可以更好地理解概率，也可以更好地理解统计学的方法。
用A表示一个集合，用x表示一个元素。我们在话题16中曾经讨论过，对于纯粹数学而言，元素与集合的隶属关系必须是确定的：如果元素x属于集合A，那么，这个元素就永远属于集合A；这个元素不属于集合A，那么，这个元素就永远不属于集合A。这就说明，元素x要不就属于集合A，要不就不属于集合A，二者不可得兼。但是，如果用集合A表示一个由随机结果组成的集合时，就必须对这个说法进行一些修正，通过下面的讨论可以看到，这个修正并不是本质的。
称由随机结果组成的集合为随机事件。我们仍然用A表示由随机结果组成的集合，这样，一个集合表示的是一个随机事件。既然是随机事件，那么元素x可能属于集合A、也可能不属于集合A，用p表示随机事件A发生可能性的大小、即用p表示元素x属于集合A的可能性的大小，并且称这个可能性的大小为随机事件发生的概率，表示为
p = P(x∈A)。
有时，也把 P(x∈A)
简写P(A)。一般的情况下，人们认为这个概率是事物的一种属性，这个属性不会因为时间或者空间的变化而变化，因此，即便这个概率是未知的，但概率本身是不变的[^121]。
可以看到，虽然我们修改了元素x与集合A之间隶属关系的同一律，但仍然保留了元素x属于随机事件A概率本身的同一律，所以说并没有进行本质的修改。这样，就可以把概率看作对集合A大小的一种度量。有了度量，传统的数学方法就有了用武之地。
如果认为一件事件不能发生，则表示为p = 0；一件事件必然发生，则表示为p =
1；因此，在通常情况下我们认定
0 ≦ p ≦ 1，
即p越接近0则随机事件发生的可能性越小，越接近1则随机事件发生的可能性越大。
进一步，用 Ω
表示所有的可能结果所组成的集合，用B表示随机事件A不发生的那些可能结果所组成的集合，即B
= Ω -- A，那么，由话题11的讨论可以得到：A ∪ B = Ω 和 A ∩ B = φ，其中 φ
表示没有结果的集合，称之为空集。因为 Ω
包含了所有可能结果（当然也包括了φ），可以得到：
P(x∈Ω) = 1，P(x∈φ) = 0。
通过这个结果可以得到：
P(x∈A) = p，P(x∈B) = 1 - p。
在日常生活和生产实践的交流中，人们可以这样表述概率p：事件发生的可能性为100p%。比如，当概率p
= 0.8时则说：事件发生的可能性为80%。
那么，如何才能知道概率p的大小呢？如果从纯粹数学的角度思考，概率是被定义出来的。最初的概率定义是法国数学家、天文学家拉普拉斯（Laplace,
1749-1827）给出的。拉普拉斯在1814年出版的一本小册子《概率的哲学导论》中写道[^122]：
机遇理论的要义是：将同一类的所有事件都化简为一定数目的等可能情况。即化简到这样的程度，我们可以等同地对待所有不确定的存在，并且确定欲求其概率那个事件的有利情况的数目，此数目与所有可能情况之比就是欲求概率的测度。简而言之，概率是一个分数，其分子是有利情况的数目，分母是所有可能情况的数目。
几乎现在所有教科书中，关于概率的定义都采用了拉普拉斯上文中的最后一句话：概率是一个分数，分子是有利情况的数目，分母是所有可能情况的数目。人们称这样的定义为古典概率。如果用A表示所要求概率的那个事件，用m表示有利情况的数目，用n表示所有可能情况的数目，那么，所定义的概率就是：P(A)
= m/n。
在这里，我们必须注意到拉普拉斯的定义是有条件的，有两个条件是必须成立的，一个条件是：等同地对待所有不确定性结果的存在，因此，拉普拉斯所说的事件是等可能事件；另一个条件是：所有可能情况的数目是有限的，因此，拉普拉斯所说的事件所有可能结果的个数是有限的。比如，考虑掷骰子的问题，那么，上述第一个条件要求骰子必须是均匀的，或者说，必须假定骰子是均匀的，这就保证了每次掷骰子出现1-6这些数字的可能性是相等的。对于第二个条件，要求我们掷骰子的次数是有限的。在这两个假定条件下，如果掷一次骰子，考虑"点数为偶数"这个随机事件的概率，按照拉普拉斯的定义，这个概率是一个分数：分母为所有可能发生情况，共有6种情况；分子为2、4、6中有一个情况发生，共有3种情况。因此，这个概率为3/6
= 1/2。
下面，借助问题28中的例子来讨论如何利用概率模型得到估计、即如何得到问题28中所表示的最大似然估计。在这个例子中，每次摸球只可能有两个结果之一：红球或者白球。我们用1表示红球，用0表示白球；并且假设摸到红球的概率为p，即P(x=1)
= p，那么，P(x=0) = q = 1-p。
我们把这个问题抽象为一般的问题，进而建立一个模型。考虑一个随机事件只有两个可能结果：成功或者失败。假设成功的概率为p，那么，失败的概率为q
=1
-p。可以看到，许多试验或者实验的数据分析都可以归于这类模型，比如，投篮是否投中，考试是否合格，药物试验是否有阳性反应，发射导弹是否命中目标，等等。显然，模型中的概率p是未知的，但我们希望估计这个概率。人们称这样的模型为二项分布模型，或者伯努利模型，后者是为了纪念瑞士数学家伯努利（Jocob
Bernoulli，1654-1705），因为是他第一个得到了二项分布。
还是回到摸球的问题。假如我们有放回地摸球，一共重复n次，得到的样本为x~1~，...，x~n~，令
Y = x~1~ + ... + x~n~。
因为每一个x~i~
的取值只能是0或者1，这样，Y就表示了n次摸球中摸到红球的次数（更一般地，表示n试验中成功的次数），显然在具体摸球之前，不可能知道Y的取值，因此称这样的变量为随机变量。如果用k表示摸到红球的次数，则k可能是0到n中的任何一个数，即
k ∈ {0，1，...，n}。
那么，Y = k的概率是多少呢？因为在n次试验中有k次成功（同时有n -
k次失败）的所有可能性的组合数是可以计算的，这个组合数恰是二项式 (p+q)^n^
展开后p^k^q^n-k^
项的系数，被称为二项系数，这个系数也可以由杨辉三角形[^123]得到。如果用c(n,k)
表示这个系数，则可以得到递推公式c(n,k) = c(n,k-1)·(n -- k + 1) /
k。这样，通过逐级计算就可以得到：
c(n,k) = n (n -- 1) ... (n -- k +1) / k!，
其中k! 表示所有小于k的自然数（0除外）的乘积，即k! = k (k -- 1) ...
1。这个结果是意大利数学家卡尔丹（Gerolamo
Cardano，1501-1576）得到的，记载在他的著作《机遇的博弈》中，这本书直到他去世后很久的1663年才得以出版。
通过二项系数就容易得到概率了：概率 = (所有可能的组合数) × (一次概率)，即
P(Y = k) = c(n,k) p^k^q^n-k^， （A15）
其中k ∈
{0，1，...，n}。虽然在上面式子中的概率p是未知的，但这个式子已经描述了随机变量的取值规律，人们称这样的描述随机变量取值规律的式子为随机变量的分布，特别称上面的式子为二项分布。下面讨论如何利用分布得到概率p的估计。
首先考虑估计的原则。通过重复摸球，可以得到摸到红球的实验数据k，那么，实验数据k就必然是估计的基础，这也就是我们为什么反复强调数据分析观念的原因。可以建立这样的原则：概率的真值就是使得"Y取值为k"这个事件发生可能性最大的p，这时的k为实验数据。也就是：
把使得（A15）式达到最大的那个p作为概率的估计。
人们称这个原则为最大似然原则，这样求出来的估计被称为最大似然估计。这个原则已经成为统计学中最重要的准则之一。高斯在1821年首先提出了这个想法，现代统计学的奠基人之一、英国统计学家费歇（Fisher，1890-1962）于1912年发表文章，进一步明确了这个估计方法，并讨论了这个估计的性质，因此在统计学教科书中把最大似然原则的发明归功于费歇。
现在针对二项分布进行具体的计算。显然（A15）式中二项系数与求最大值无关，可以不考虑；又因为对数函数是一个单调函数，因此求（A15）式最大值的问题等价于求函数
g(p) = k ln p + (n-k) ln q
= k ln p + (n-k) ln (1-p)
的最大值。利用求导数的方法，函数g(p) 对p求导，并令导函数为0，可以得到
k/p -- (n -- k)/(1 -- p) = 0。
通过上面的式子容易得到解为：k/n，这就是概率p的最大似然估计。可以看到，这个计算结果与问题28中的结论是一致的。
最大似然估计不仅在逻辑上是合理的，并且具有很多好的统计性质，因此，现行中小学数学教材中都介绍了这种估计方法。但是，正如在问题27中所说的那样，对于统计学而言，对结果的判断更多地是侧重好与坏，而不是关注对与错。比如对于摸球的问题，不能说不使用最大似然估计就是错的，只是说，在大多数情况下，最好还是用最大似然估计。事实上，针对一些特殊情况，最大似然估计不一定就是最好的方法，我们来看下面的例子。
某个同学投篮，估计这个同学投中的概率。根据上面的讨论，如果这个同学投了n次，投中m次，则概率的最大似然估计为
m/n。可是，如果这个同学只投了1次并且投中了，因为1/1
=1，因此估计这个同学投篮命中的概率为1，这实在有些不讲理。事实上，还有一种不同于最大似然估计的方法，估计概率为：(m+1)/(n+2)，那么针对1次投篮问题，得到的概率估计就是：(1+1)/(1+2)
= 2/3，可以看到，这个估计还是可以接受的。
附录2 教学设计