|
|
概率的定义和基于概率模型的估计
|
|
|
在上一个话题中,涉及到了概率。在这个话题中,我们将从逻辑的角度讨论概率,然后再用一个例子说明:如何利用逻辑结果进行数据分析,从而得到合理的统计学的估计方法。这个分析过程可以更好地理解概率,也可以更好地理解统计学的方法。
|
|
|
用A表示一个集合,用x表示一个元素。我们在话题16中曾经讨论过,对于纯粹数学而言,元素与集合的隶属关系必须是确定的:如果元素x属于集合A,那么,这个元素就永远属于集合A;这个元素不属于集合A,那么,这个元素就永远不属于集合A。这就说明,元素x要不就属于集合A,要不就不属于集合A,二者不可得兼。但是,如果用集合A表示一个由随机结果组成的集合时,就必须对这个说法进行一些修正,通过下面的讨论可以看到,这个修正并不是本质的。
|
|
|
称由随机结果组成的集合为随机事件。我们仍然用A表示由随机结果组成的集合,这样,一个集合表示的是一个随机事件。既然是随机事件,那么元素x可能属于集合A、也可能不属于集合A,用p表示随机事件A发生可能性的大小、即用p表示元素x属于集合A的可能性的大小,并且称这个可能性的大小为随机事件发生的概率,表示为
|
|
|
p = P(x∈A)。
|
|
|
有时,也把 P(x∈A)
|
|
|
简写P(A)。一般的情况下,人们认为这个概率是事物的一种属性,这个属性不会因为时间或者空间的变化而变化,因此,即便这个概率是未知的,但概率本身是不变的[^121]。
|
|
|
可以看到,虽然我们修改了元素x与集合A之间隶属关系的同一律,但仍然保留了元素x属于随机事件A概率本身的同一律,所以说并没有进行本质的修改。这样,就可以把概率看作对集合A大小的一种度量。有了度量,传统的数学方法就有了用武之地。
|
|
|
如果认为一件事件不能发生,则表示为p = 0;一件事件必然发生,则表示为p =
|
|
|
1;因此,在通常情况下我们认定
|
|
|
0 ≦ p ≦ 1,
|
|
|
即p越接近0则随机事件发生的可能性越小,越接近1则随机事件发生的可能性越大。
|
|
|
进一步,用 Ω
|
|
|
表示所有的可能结果所组成的集合,用B表示随机事件A不发生的那些可能结果所组成的集合,即B
|
|
|
= Ω -- A,那么,由话题11的讨论可以得到:A ∪ B = Ω 和 A ∩ B = φ,其中 φ
|
|
|
表示没有结果的集合,称之为空集。因为 Ω
|
|
|
包含了所有可能结果(当然也包括了φ),可以得到:
|
|
|
P(x∈Ω) = 1,P(x∈φ) = 0。
|
|
|
通过这个结果可以得到:
|
|
|
P(x∈A) = p,P(x∈B) = 1 - p。
|
|
|
在日常生活和生产实践的交流中,人们可以这样表述概率p:事件发生的可能性为100p%。比如,当概率p
|
|
|
= 0.8时则说:事件发生的可能性为80%。
|
|
|
那么,如何才能知道概率p的大小呢?如果从纯粹数学的角度思考,概率是被定义出来的。最初的概率定义是法国数学家、天文学家拉普拉斯(Laplace,
|
|
|
1749-1827)给出的。拉普拉斯在1814年出版的一本小册子《概率的哲学导论》中写道[^122]:
|
|
|
机遇理论的要义是:将同一类的所有事件都化简为一定数目的等可能情况。即化简到这样的程度,我们可以等同地对待所有不确定的存在,并且确定欲求其概率那个事件的有利情况的数目,此数目与所有可能情况之比就是欲求概率的测度。简而言之,概率是一个分数,其分子是有利情况的数目,分母是所有可能情况的数目。
|
|
|
几乎现在所有教科书中,关于概率的定义都采用了拉普拉斯上文中的最后一句话:概率是一个分数,分子是有利情况的数目,分母是所有可能情况的数目。人们称这样的定义为古典概率。如果用A表示所要求概率的那个事件,用m表示有利情况的数目,用n表示所有可能情况的数目,那么,所定义的概率就是:P(A)
|
|
|
= m/n。
|
|
|
在这里,我们必须注意到拉普拉斯的定义是有条件的,有两个条件是必须成立的,一个条件是:等同地对待所有不确定性结果的存在,因此,拉普拉斯所说的事件是等可能事件;另一个条件是:所有可能情况的数目是有限的,因此,拉普拉斯所说的事件所有可能结果的个数是有限的。比如,考虑掷骰子的问题,那么,上述第一个条件要求骰子必须是均匀的,或者说,必须假定骰子是均匀的,这就保证了每次掷骰子出现1-6这些数字的可能性是相等的。对于第二个条件,要求我们掷骰子的次数是有限的。在这两个假定条件下,如果掷一次骰子,考虑"点数为偶数"这个随机事件的概率,按照拉普拉斯的定义,这个概率是一个分数:分母为所有可能发生情况,共有6种情况;分子为2、4、6中有一个情况发生,共有3种情况。因此,这个概率为3/6
|
|
|
= 1/2。
|
|
|
下面,借助问题28中的例子来讨论如何利用概率模型得到估计、即如何得到问题28中所表示的最大似然估计。在这个例子中,每次摸球只可能有两个结果之一:红球或者白球。我们用1表示红球,用0表示白球;并且假设摸到红球的概率为p,即P(x=1)
|
|
|
= p,那么,P(x=0) = q = 1-p。
|
|
|
我们把这个问题抽象为一般的问题,进而建立一个模型。考虑一个随机事件只有两个可能结果:成功或者失败。假设成功的概率为p,那么,失败的概率为q
|
|
|
=1
|
|
|
-p。可以看到,许多试验或者实验的数据分析都可以归于这类模型,比如,投篮是否投中,考试是否合格,药物试验是否有阳性反应,发射导弹是否命中目标,等等。显然,模型中的概率p是未知的,但我们希望估计这个概率。人们称这样的模型为二项分布模型,或者伯努利模型,后者是为了纪念瑞士数学家伯努利(Jocob
|
|
|
Bernoulli,1654-1705),因为是他第一个得到了二项分布。
|
|
|
还是回到摸球的问题。假如我们有放回地摸球,一共重复n次,得到的样本为x~1~,...,x~n~,令
|
|
|
Y = x~1~ + ... + x~n~。
|
|
|
因为每一个x~i~
|
|
|
的取值只能是0或者1,这样,Y就表示了n次摸球中摸到红球的次数(更一般地,表示n试验中成功的次数),显然在具体摸球之前,不可能知道Y的取值,因此称这样的变量为随机变量。如果用k表示摸到红球的次数,则k可能是0到n中的任何一个数,即
|
|
|
k ∈ {0,1,...,n}。
|
|
|
那么,Y = k的概率是多少呢?因为在n次试验中有k次成功(同时有n -
|
|
|
k次失败)的所有可能性的组合数是可以计算的,这个组合数恰是二项式 (p+q)^n^
|
|
|
展开后p^k^q^n-k^
|
|
|
项的系数,被称为二项系数,这个系数也可以由杨辉三角形[^123]得到。如果用c(n,k)
|
|
|
表示这个系数,则可以得到递推公式c(n,k) = c(n,k-1)·(n -- k + 1) /
|
|
|
k。这样,通过逐级计算就可以得到:
|
|
|
c(n,k) = n (n -- 1) ... (n -- k +1) / k!,
|
|
|
其中k! 表示所有小于k的自然数(0除外)的乘积,即k! = k (k -- 1) ...
|
|
|
1。这个结果是意大利数学家卡尔丹(Gerolamo
|
|
|
Cardano,1501-1576)得到的,记载在他的著作《机遇的博弈》中,这本书直到他去世后很久的1663年才得以出版。
|
|
|
通过二项系数就容易得到概率了:概率 = (所有可能的组合数) × (一次概率),即
|
|
|
P(Y = k) = c(n,k) p^k^q^n-k^, (A15)
|
|
|
其中k ∈
|
|
|
{0,1,...,n}。虽然在上面式子中的概率p是未知的,但这个式子已经描述了随机变量的取值规律,人们称这样的描述随机变量取值规律的式子为随机变量的分布,特别称上面的式子为二项分布。下面讨论如何利用分布得到概率p的估计。
|
|
|
首先考虑估计的原则。通过重复摸球,可以得到摸到红球的实验数据k,那么,实验数据k就必然是估计的基础,这也就是我们为什么反复强调数据分析观念的原因。可以建立这样的原则:概率的真值就是使得"Y取值为k"这个事件发生可能性最大的p,这时的k为实验数据。也就是:
|
|
|
把使得(A15)式达到最大的那个p作为概率的估计。
|
|
|
人们称这个原则为最大似然原则,这样求出来的估计被称为最大似然估计。这个原则已经成为统计学中最重要的准则之一。高斯在1821年首先提出了这个想法,现代统计学的奠基人之一、英国统计学家费歇(Fisher,1890-1962)于1912年发表文章,进一步明确了这个估计方法,并讨论了这个估计的性质,因此在统计学教科书中把最大似然原则的发明归功于费歇。
|
|
|
现在针对二项分布进行具体的计算。显然(A15)式中二项系数与求最大值无关,可以不考虑;又因为对数函数是一个单调函数,因此求(A15)式最大值的问题等价于求函数
|
|
|
g(p) = k ln p + (n-k) ln q
|
|
|
= k ln p + (n-k) ln (1-p)
|
|
|
的最大值。利用求导数的方法,函数g(p) 对p求导,并令导函数为0,可以得到
|
|
|
k/p -- (n -- k)/(1 -- p) = 0。
|
|
|
通过上面的式子容易得到解为:k/n,这就是概率p的最大似然估计。可以看到,这个计算结果与问题28中的结论是一致的。
|
|
|
最大似然估计不仅在逻辑上是合理的,并且具有很多好的统计性质,因此,现行中小学数学教材中都介绍了这种估计方法。但是,正如在问题27中所说的那样,对于统计学而言,对结果的判断更多地是侧重好与坏,而不是关注对与错。比如对于摸球的问题,不能说不使用最大似然估计就是错的,只是说,在大多数情况下,最好还是用最大似然估计。事实上,针对一些特殊情况,最大似然估计不一定就是最好的方法,我们来看下面的例子。
|
|
|
某个同学投篮,估计这个同学投中的概率。根据上面的讨论,如果这个同学投了n次,投中m次,则概率的最大似然估计为
|
|
|
m/n。可是,如果这个同学只投了1次并且投中了,因为1/1
|
|
|
=1,因此估计这个同学投篮命中的概率为1,这实在有些不讲理。事实上,还有一种不同于最大似然估计的方法,估计概率为:(m+1)/(n+2),那么针对1次投篮问题,得到的概率估计就是:(1+1)/(1+2)
|
|
|
= 2/3,可以看到,这个估计还是可以接受的。
|
|
|
附录2 教学设计 |