|
|
统计学的由来
|
|
|
我们在问题26中谈到,统计学研究的基础是数据,因此,学习统计学要培养数据分析观念。通过对统计学由来的了解,可以更好地理解其中的含义。
|
|
|
人们对于数据的理解是逐渐加深的。事实上,在很早以前人们就知道调查的重要性,知道如何调查和记录数据,知道利用数据分析的结果进行判断和决策。比如,史前时代人们用刻痕或者结绳等方法来纪录事情,这显然比算术的起源还要早。
|
|
|
中国在周朝就设有专门负责调查和记录数据的官员,被称为司书。据《周礼·天官·冢宰》中的记载,国家设立"司书上士二人,中士四人,府二人,史二人,徒八人。"这些官吏的主要工作是负责"邦之六典
|
|
|
... 以周知入出百物 ...
|
|
|
以知田野夫家六畜之数。"在《管子·问》这本书中还提到六十五问,这里的"问"是"调查"的意思,因此,六十五问实际上是65个调查科目,其中大部分科目是与管理国家有关的数据,这些调查科目即便是对现今社会的管理也是很有启发的。比如,
|
|
|
问死事之孤未有田宅者有乎?问少壮而未胜甲兵者几何人?问国之有功大者何官之吏也?问独夫寡妇孤寡疾病者几何人也?问乡之良家其所牧养者几何人矣?问邑之贫人债而食者几何家?人之开田而耕者几何家?士之身耕者几何家?子弟以孝闻於乡里者几何人?余子父母存,不养而出离者几何人?士之有田而不使者几何人?外人之来从而未有田宅者几何家?国子弟之游於外者几何人?贫士之受责於大夫者几何人?外人来游在大夫之家者几何人?男女不整齐,乱乡子弟者有乎?余子之胜甲兵有行伍者几何人?问男女有巧伎,能利备用者几何人?处女操工事者几何人?问一民有几年之食也?问兵车之计几何乘也?士之急难可使者几何人?可以修城郭补守备者几何人?城粟军粮其可以行几何年也?吏之急难可使者几何人?所捕盗贼除人害者几何矣?
|
|
|
可惜我们已经找不到当时的调查结果了,因此不可能确切地知道当时是如何记录数据和进行数据处理的,但可以想象,其中很可能会涉及到"平均数"或者"众数"的概念。
|
|
|
在古罗马,第6世王图利乌斯(Tullius,前578-前534)时代就设立了监察官(censors),为了税收和征兵,每5年做一次人口和财产登记。人口调查census一词来源于拉丁语censere,就是税收的意思。在古印度,大约在公元前300左右成书的《印度经典(Arthasastra)》中详细记述了应当如何收集和整理数据,书中还规定了村里会计的职责[^114]:
|
|
|
记录哪些家庭纳税,哪些没有纳税;不仅要登记村中四个等级居民的人口总数,还要登记种田人、养牛人、商人、工匠、体力劳动者、奴隶,以及每户拥有的两条腿和四条腿的动物的准确数据。
|
|
|
从历史的回顾中可以看到,最初的统计学(数据收集和分析)是与管理国家有关的。统计学这个词最初是德文statistieken,由德国统计学家阿亨瓦尔(Achenwall,
|
|
|
1719-1772)创造的,这个词源是由古拉丁文status这个词演变过来的[^115],原意是国家、政府。阿亨瓦尔解释他所创造这个词的意思为:"由国家来收集、处理和使用数据。"英文统计statistics一词最早出现在统计学家辛克莱(Sinclair,1754-1835)主编的、于1791-1799年期间出版的21卷《统计报表(Old
|
|
|
Statistical
|
|
|
Account)》上,这个报表对166个科目进行了调查,内容涉及苏格兰的历史、地理和社会。在第10卷中,辛克莱说到statistics这个词来自德文,并且解释到[^116]:
|
|
|
在德国,这个词的意思是以考察国家政治力量或者有关国家事物为目的的调查,而我现在添加的意思是以考察国民的幸福程度以及改善途径为目的的调查。我想一个新的词汇会吸引更多的公众关注就坚决用了这个词,希望它能与我们的语言完美融合。
|
|
|
正如辛克莱所希望的那样,统计学逐渐扩展到人们日常生活和生产实践的各个方面,人们已经清楚的知道,为了更好地管理或者决策,就要了解管理或者决策的对象,而为了更好地了解对象,除了定性分析以外还应当通过数据进行定量分析。
|
|
|
为了便于数据分析,需要在不损失信息的前提下,对看起来杂乱无章的数据进行归纳和整理是必要的。现存的文献表明,第一个对大量的统计资料进行系统地、卓有成效地整理的是英国统计学家格朗特(John
|
|
|
Graunt,1620-1674)。那是瘟疫大面积在欧洲流行的时代,伦敦的有关机构出版了有关死亡原因的每周报表,格朗特对这些报表进行了认真地整理和分析,于1662年出版了《死亡报表的自然和政治观察》,其中首次揭示了男孩的出生率高于女孩的事实。受格朗特的影响,英国古典政治经济学创始人威廉·配第(William
|
|
|
Petty,1623-1687)于1690年出版了《政治算术》,这是第一部利用数量分析进行国情国力比较的著作;英国天文学家哈雷(Edmond
|
|
|
Halley,1656-1742)于1693年发布了布雷斯劳人口死亡率表、出版了《人口死亡率下降估计》,第一次利用数据探讨了死亡率与年龄的关系,提出了如何对死亡率进行估计的问题。
|
|
|
但是,上面所说的数据整理和分析的方法都没有考虑数据的随机性,使用的仍然是确定性的数学方法,人们称这样的统计方法为描述数据分析。
|
|
|
随着日常生活和生产实践的需要,人们开始认识到必须认真地对待数据的随机性,这发端于十四世纪后的航海保险、人寿保险等商业活动。1384年,在意大利的佛罗伦萨诞生了第一份具有现代意义的保险单,这是承保由法国南部的阿尔兹到意大利比萨的货物运输,保险单上有明确的保险责任,也有明确的保险金额。显然,发生航运事故是一个随机事件,确定保险金额的多少应当与这个随机事件发生可能性的大小有关,而事件发生可能性的大小又与船体结构、航行线路、航行季节等因素有关。人们称随机事件发生可能性的大小为概率,这个概率的确定不能凭借主观臆想,必须考虑上述各种因素、特别是需要通过对以往数据的分析进行推断。
|
|
|
发行股票是吸引社会资金的有效方法。一般来说,对于需要资金的企业,可以采取两种方法筹措资金:一种方法是银行贷款,一种方法是发行股票。采用后一种方法往往比前一种方法更加稳妥,因为后一种方法吸引了更多的股东参与企业的发展,虽然要利益均摊,但也分散了风险。对应于筹措资金的两种方式,社会上的闲散资金也有两种使用方法:一种方法是银行储蓄,一种方法是风险投资。采用后一种方法往往比前一种方法回报会更大一些,但要承担相应的风险。在各种风险投资的项目中,最为简洁的方法就是购买股票,根据这种需求,就出现了股份有限公司和股票交易市场。世界上第一个股份有限公司是荷兰的东印度公司,成立于1602年。世界上第一个证劵交易所成立于1773年,是在伦敦的约那森咖啡馆,这是伦敦证劵交易所的前身。
|
|
|
在自由经济市场,股票价格的变化也是随机的。为了便于投资者了解股票价格的变化情况,股票交易市场制定了股票价格指数,统一表示这个变化,比如道·琼斯指数。道·琼斯指数是美国的股票价格指数,是道·琼斯公司的创始人查理斯·道(Charls
|
|
|
Dow,1851-1902)于1884年开始编制的,是世界上历史最为悠久的股票指数。道·琼斯指数在本质上是计算部分有代表性的上市企业的股票价格平均数[^117],最初选用的是11种运输企业的股票;1897年起选用了20种工业和运输企业的股票;后来代表性股票逐渐扩大到65种,延续至今。
|
|
|
可以看到,对于保险和股票,人们得到的数据是随机的,并且,人们只能利用那些历史的、随机的数据对将要发生的事情进行推断。可以想象,这样一类随机发生的事情在日常生活和生产实践中是大量存在的,因此,为了分析、研究、解决这样的一类问题,需要建立一种与传统的统计、即与描述数据分析不同的方法,人们称这样的统计方法为推断数据分析。
|
|
|
我们通过现代统计学使用频繁的回归方程,进一步说明推断数据分析的思维内核。英国遗传学家高尔登(Francis
|
|
|
Galton,1822-1911)为研究子女的身高与双亲身高之间的关系,于1885年征得了205对夫妻与他们的938个成年子女的身高。经过对数据的认真分析,高尔登发现,虽然有父母高儿女也高、父母矮儿女也矮的普遍趋势,但是在给定父母身高后,儿女的平均身高却"回归"到全体人的平均身高,他称这个现象为普遍回归定律,于1886年发表在他的论文《遗传结构中的趋中回归》之中。后来,近代统计学的奠基人之一、英国统计学家皮尔逊(Karl
|
|
|
Pearson,1857-1936)从统计学的角度证实了这个定律[^118]。如果用x和y分别表示父母和儿女的身高,那么,定律认为:在x给定条件下y的均值趋于一个常数。后来人们把这个给定条件的均值称为回归模型。特别是,当x与y服从二维正态分布时,这个条件均值是一个线性关系:
|
|
|
y = α + ρx,
|
|
|
其中 ρ
|
|
|
被称为相关系数。与均值和方差一样,相关系数也是一个很重要的数量指标。
|
|
|
无论如何,人们已经知道数据是包含着信息的,通过对数据分析能够知道很多事情,正如美籍印度裔统计学家C.R.劳(Rao,1920-)所说的那样[^119]:统计分析的形式随着时代的推移而变化着,但是"从数据中提取一切信息"或者"归纳和揭示"作为统计分析的目的却一直没有改变。也正如《大美百科全书》对于统计学的定义[^120]:作为一个研究领域,统计学是关于收集和分析数据的科学和艺术,其目的是为了对一些不确定的事物进行较准确的推断。 |