You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

69 lines
10 KiB

3 weeks ago
概率的定义和基于概率模型的估计
在上一个话题中,涉及到了概率。在这个话题中,我们将从逻辑的角度讨论概率,然后再用一个例子说明:如何利用逻辑结果进行数据分析,从而得到合理的统计学的估计方法。这个分析过程可以更好地理解概率,也可以更好地理解统计学的方法。
用A表示一个集合用x表示一个元素。我们在话题16中曾经讨论过对于纯粹数学而言元素与集合的隶属关系必须是确定的如果元素x属于集合A那么这个元素就永远属于集合A这个元素不属于集合A那么这个元素就永远不属于集合A。这就说明元素x要不就属于集合A要不就不属于集合A二者不可得兼。但是如果用集合A表示一个由随机结果组成的集合时就必须对这个说法进行一些修正通过下面的讨论可以看到这个修正并不是本质的。
称由随机结果组成的集合为随机事件。我们仍然用A表示由随机结果组成的集合这样一个集合表示的是一个随机事件。既然是随机事件那么元素x可能属于集合A、也可能不属于集合A用p表示随机事件A发生可能性的大小、即用p表示元素x属于集合A的可能性的大小并且称这个可能性的大小为随机事件发生的概率表示为
p = P(x∈A)。
有时,也把 P(x∈A)
简写P(A)。一般的情况下,人们认为这个概率是事物的一种属性,这个属性不会因为时间或者空间的变化而变化,因此,即便这个概率是未知的,但概率本身是不变的[^121]。
可以看到虽然我们修改了元素x与集合A之间隶属关系的同一律但仍然保留了元素x属于随机事件A概率本身的同一律所以说并没有进行本质的修改。这样就可以把概率看作对集合A大小的一种度量。有了度量传统的数学方法就有了用武之地。
如果认为一件事件不能发生则表示为p = 0一件事件必然发生则表示为p =
1因此在通常情况下我们认定
0 ≦ p ≦ 1
即p越接近0则随机事件发生的可能性越小越接近1则随机事件发生的可能性越大。
进一步,用 Ω
表示所有的可能结果所组成的集合用B表示随机事件A不发生的那些可能结果所组成的集合即B
= Ω -- A那么由话题11的讨论可以得到A B = Ω 和 A ∩ B = φ,其中 φ
表示没有结果的集合,称之为空集。因为 Ω
包含了所有可能结果(当然也包括了φ),可以得到:
P(x∈Ω) = 1P(x∈φ) = 0。
通过这个结果可以得到:
P(x∈A) = pP(x∈B) = 1 - p。
在日常生活和生产实践的交流中人们可以这样表述概率p事件发生的可能性为100p%。比如当概率p
= 0.8时则说事件发生的可能性为80%。
那么如何才能知道概率p的大小呢如果从纯粹数学的角度思考概率是被定义出来的。最初的概率定义是法国数学家、天文学家拉普拉斯Laplace,
1749-1827给出的。拉普拉斯在1814年出版的一本小册子《概率的哲学导论》中写道[^122]
机遇理论的要义是:将同一类的所有事件都化简为一定数目的等可能情况。即化简到这样的程度,我们可以等同地对待所有不确定的存在,并且确定欲求其概率那个事件的有利情况的数目,此数目与所有可能情况之比就是欲求概率的测度。简而言之,概率是一个分数,其分子是有利情况的数目,分母是所有可能情况的数目。
几乎现在所有教科书中关于概率的定义都采用了拉普拉斯上文中的最后一句话概率是一个分数分子是有利情况的数目分母是所有可能情况的数目。人们称这样的定义为古典概率。如果用A表示所要求概率的那个事件用m表示有利情况的数目用n表示所有可能情况的数目那么所定义的概率就是P(A)
= m/n。
在这里我们必须注意到拉普拉斯的定义是有条件的有两个条件是必须成立的一个条件是等同地对待所有不确定性结果的存在因此拉普拉斯所说的事件是等可能事件另一个条件是所有可能情况的数目是有限的因此拉普拉斯所说的事件所有可能结果的个数是有限的。比如考虑掷骰子的问题那么上述第一个条件要求骰子必须是均匀的或者说必须假定骰子是均匀的这就保证了每次掷骰子出现1-6这些数字的可能性是相等的。对于第二个条件要求我们掷骰子的次数是有限的。在这两个假定条件下如果掷一次骰子考虑"点数为偶数"这个随机事件的概率按照拉普拉斯的定义这个概率是一个分数分母为所有可能发生情况共有6种情况分子为2、4、6中有一个情况发生共有3种情况。因此这个概率为3/6
= 1/2。
下面借助问题28中的例子来讨论如何利用概率模型得到估计、即如何得到问题28中所表示的最大似然估计。在这个例子中每次摸球只可能有两个结果之一红球或者白球。我们用1表示红球用0表示白球并且假设摸到红球的概率为p即P(x=1)
= p那么P(x=0) = q = 1-p。
我们把这个问题抽象为一般的问题进而建立一个模型。考虑一个随机事件只有两个可能结果成功或者失败。假设成功的概率为p那么失败的概率为q
=1
-p。可以看到许多试验或者实验的数据分析都可以归于这类模型比如投篮是否投中考试是否合格药物试验是否有阳性反应发射导弹是否命中目标等等。显然模型中的概率p是未知的但我们希望估计这个概率。人们称这样的模型为二项分布模型或者伯努利模型后者是为了纪念瑞士数学家伯努利Jocob
Bernoulli1654-1705因为是他第一个得到了二项分布。
还是回到摸球的问题。假如我们有放回地摸球一共重复n次得到的样本为x~1~...x~n~,令
Y = x~1~ + ... + x~n~。
因为每一个x~i~
的取值只能是0或者1这样Y就表示了n次摸球中摸到红球的次数更一般地表示n试验中成功的次数显然在具体摸球之前不可能知道Y的取值因此称这样的变量为随机变量。如果用k表示摸到红球的次数则k可能是0到n中的任何一个数
k ∈ {01...n}。
那么Y = k的概率是多少呢因为在n次试验中有k次成功同时有n -
k次失败的所有可能性的组合数是可以计算的这个组合数恰是二项式 (p+q)^n^
展开后p^k^q^n-k^
项的系数,被称为二项系数,这个系数也可以由杨辉三角形[^123]得到。如果用c(n,k)
表示这个系数则可以得到递推公式c(n,k) = c(n,k-1)·(n -- k + 1) /
k。这样通过逐级计算就可以得到
c(n,k) = n (n -- 1) ... (n -- k +1) / k!
其中k! 表示所有小于k的自然数0除外的乘积即k! = k (k -- 1) ...
1。这个结果是意大利数学家卡尔丹Gerolamo
Cardano1501-1576得到的记载在他的著作《机遇的博弈》中这本书直到他去世后很久的1663年才得以出版。
通过二项系数就容易得到概率了:概率 = (所有可能的组合数) × (一次概率),即
P(Y = k) = c(n,k) p^k^q^n-k^ A15
其中k ∈
{01...n}。虽然在上面式子中的概率p是未知的但这个式子已经描述了随机变量的取值规律人们称这样的描述随机变量取值规律的式子为随机变量的分布特别称上面的式子为二项分布。下面讨论如何利用分布得到概率p的估计。
首先考虑估计的原则。通过重复摸球可以得到摸到红球的实验数据k那么实验数据k就必然是估计的基础这也就是我们为什么反复强调数据分析观念的原因。可以建立这样的原则概率的真值就是使得"Y取值为k"这个事件发生可能性最大的p这时的k为实验数据。也就是
把使得A15式达到最大的那个p作为概率的估计。
人们称这个原则为最大似然原则这样求出来的估计被称为最大似然估计。这个原则已经成为统计学中最重要的准则之一。高斯在1821年首先提出了这个想法现代统计学的奠基人之一、英国统计学家费歇Fisher1890-1962于1912年发表文章进一步明确了这个估计方法并讨论了这个估计的性质因此在统计学教科书中把最大似然原则的发明归功于费歇。
现在针对二项分布进行具体的计算。显然A15式中二项系数与求最大值无关可以不考虑又因为对数函数是一个单调函数因此求A15式最大值的问题等价于求函数
g(p) = k ln p + (n-k) ln q
= k ln p + (n-k) ln (1-p)
的最大值。利用求导数的方法函数g(p) 对p求导并令导函数为0可以得到
k/p -- (n -- k)/(1 -- p) = 0。
通过上面的式子容易得到解为k/n这就是概率p的最大似然估计。可以看到这个计算结果与问题28中的结论是一致的。
最大似然估计不仅在逻辑上是合理的并且具有很多好的统计性质因此现行中小学数学教材中都介绍了这种估计方法。但是正如在问题27中所说的那样对于统计学而言对结果的判断更多地是侧重好与坏而不是关注对与错。比如对于摸球的问题不能说不使用最大似然估计就是错的只是说在大多数情况下最好还是用最大似然估计。事实上针对一些特殊情况最大似然估计不一定就是最好的方法我们来看下面的例子。
某个同学投篮估计这个同学投中的概率。根据上面的讨论如果这个同学投了n次投中m次则概率的最大似然估计为
m/n。可是如果这个同学只投了1次并且投中了因为1/1
=1因此估计这个同学投篮命中的概率为1这实在有些不讲理。事实上还有一种不同于最大似然估计的方法估计概率为(m+1)/(n+2)那么针对1次投篮问题得到的概率估计就是(1+1)/(1+2)
= 2/3可以看到这个估计还是可以接受的。
附录2 教学设计