概率与统计入门
―――摘自 [美>H·L·奥尔德 E·B·罗赛勒
统计学是关于数字资料收集、组织、分析与解释的科学。
“资料收集”是取得数量或数据的方法。正确的结论只能来源于正确的资料,来源于有代表性的资料。
“资料组织”是以适当形式表现所收集的资料,以得出符合逻辑的结论。
“资料分析”是从给定的量或数,抽出有关问题,从而得出一个简要的综合姓的结果。达到这个日的的最重要的量(平均数、中位数、极差、标推差,等等)。
“资料解释”是通过资料分析来作出结论的工作,它通常是通过类似对象的小的集合提供的信息来对有关对象的大的集合形成预测的。
因此,统计学是一门科学,它处理在某种程度上可用数量信息回答的问题,而信息是通过计数和量度得到的。不论我们在生物研究中调查昆虫数、还是在工厂中调查工人数或工时数,统计工作者的职责首先是选择所裔的那类信息,其次是指导适当的有效的收集与加工信息,最后是解释结果。在解释结果中,特别是在资料不完全的情况下,统计工作者必须运用原理与方法以得出有效的调查结果。他常常要求面对不肯定的情况做出明智的决策。
统计一词有两个显然不同的意义。当用作如上所指的情况时,它是。一种研究和评价数量资料的科学方法。当用作复数时,它是“数量资料:一词的同义语。因此,如果我们说在“世界年鉴” 或
“美国统计摘要”中有统计,即是说在它们中有数量资料。这是一个古老的、有普遍意义酌词。原先,统计着重为政府首脑管理国家政务提供资料。用数字资料表现的这种信息可以上溯到亚里斯多德及他的“国家政务论”。事实上,“statistics与“state”源于同一词根,就是一个明证。早期大多数文明国家,由于军事的与财政的原因,曾经编制大规模的统计资料,以确定国家的入力与物力。我们在基督教圣经中曾看到诸如此类的户口调查,以及罗马帝国各地普遍编制的税册。
概率论的研究始于意大利的文艺复兴时期,当时赌徒要求找到掷段子决定胜负的规则,曾向学者G.卡达诺(150l--1576)和著名的数学天文学家G.加利莱(1564—1642)求教;加利莱所写的一篇短文中,说明了概率的基本定律,从而为整个统计科学的发展奠定了理论基础。
在16与17世纪,机会对策(赌博)在富人中特别普遍,而且引进了更复杂的对策,包括更大的赌注,不同的对策需要一个合理的计算“机会”,当时这个问题成了一个非常重要的问题。一个法国知识分子C,梅勒也是一个狂热的赌徒,他曾向著名的数学家和哲学家B。帕斯卡尔(1623—1662)求教,帕斯卡尔的注意促成了与他的数学朋友的交往,特别是与P.弗曼特马(1601--16S5)的书信往来,就成为现代概率论与组合分析的起源。
研究“机会”定律的其他闻名的数学家有O.W.莱布尼兹(1646—1716)与雅可比·白努利(1654—1705),他是著名的白努利家族九个数学家中的第一个。他们都赢得了卓越的声誉,其中雅可比的兄弟约翰·白努利(1667--1748),侄子尼古拉·白努利(1687--H59)与丹尼尔·白努利(1700—1782)都成为世界上知名的人。第一篇广博的概率论论文是由雅可比·白努利写出的,他详细地阐述了大数定律的原理。尼古拉·白努利把概率的概念用于法律问题,而丹尼尔.白努利则把概率的计算用于流行病学与保险学的研究。
同一时期,在收集社会统计学资料上取得了重要的进展,现在叫做“统计学”的知识也有所发展。在英国,J.格兰特(1620—1674)对生命统计以及保险与经济统计部分采用了数学方法进行研究,他的研究通过W.佩蒂(1623—1687)得以发展,佩带研究了伦敦城的人口生命统计,他是首先从事这类工作的人。E.哈利(1656一1742)继承了这项工作,他发展了死亡表,并把他称为开创生命统计科学的人。 A.德模瓦(1667—1754)说明了复合事件的概率程序,由摄率原理导出排列与组合理论,并奠定了生命意外事故科学的基础。1733年他发明了正态曲线方程,很多的归纳统计学理论都以此为基础。同一钟形曲线一般称之为“拉普拉斯曲线”、“高斯曲线”或“高斯—拉普拉斯曲线”,以表示对M.拉普拉斯(1749—1827)与K.F。高斯(1777一1855)的故意。高斯独立地发明了这个方程。高斯由重复量度同一个量所出现的误差,以推导正态曲线方程。他还发明了最小乎方法并发展了观察误差理论,拉普拉斯的最大贡献是把统计学应用于天文学,并与A,M.勒让德(1752一1833)一起,把偏微分方程用于概率研究。1815年“概差”(probable error)一调第一砍出现在F.W.贝塞(1784—1846)的著作中,他也发展了仪器误差理论。
对理论的其他贡献的有J.斯特林(1692—1770)的n!近似公式;M.康杜斯(1743—1794)把概率与统计应用于社会问题;T●贝期(1702—176,1)首先归纳地运用概率;L.尤勒(1707—
1783)首创使用希腊字母西格马 作为求和的符号;以及T.辛普森(1710一1761)把连续原理运用到数学横串理论中。人L.R.阿勒贝特(1717—1783)在他的概率研究中使用了气象资料;人L.拉格朗日(1736—1813)使用了微分学;Po B.蒙特模特(1678—1719)引进了有限差分的计算。C.巴夫(1707—
1788)在现代遗传的某些方面以及在概率计算上属于领先地位,此外,S.D.泊松(1781—1840)发展了以他本人名字命名的分布,即泊松分布。在1835一1870年间,比利时科学家L.A.J. 魁持奈(1796—
1874)对概率与统计的发展与应用作出了重大贡献。他把生物学的与人类学的油量和正东曲线紧密池联系在一起。:魁特奈把统计方法不仅用在生物上,而且用到教育与社会学上。他显示出对统计的极广泛的兴趣,他是认识大数稳定性的第一个人,也是首先论证在研究领域里,发展起来的统计方法可以推广到其他大多数领域的人之一。
在德国,O.F.纳普(1842一1926)按照魁特奈的原则广泛地调查研究死亡统计,而W.刘易斯(1837—1914)发展现在叫做一向方差分析的程序。
在19世纪最后25年中,F.高尔顿(1822一1911)为英国的优生学泥的创始人,在论证每个生物变量的系统变化助原理上,显示出无穷的热情,他并且积累了这方面的适当资料。发现了生物变化的有秩序原理,这标志着生物研究新时代的开始。高尔顿与他的继承者K.皮尔逊(1857—1936)利用遗传学的问题,发展
了回归与相关的概念。后来(皮尔逊)与C.B,斯皮尔曼(1863—1945)开拓了这个理论,并把它应用于社会科学。皮尔逊同时也广泛地研究了抽样误差的影陶,发展了 检验,并在文献中弓!进“平均偏差”(mean de Viatlon)与标准差(standard de V1ation)等词。
本世纪初,一位爱尔兰吉尼斯啤酒厂的统计学家W.S.戈塞特(1876一1937),笔名“学生”,出版了许多篇关于解释抽样资料的文章。他是第一个入认识到发展小样本方法以得出可靠信息的重要性。这种方法以后由R.A.费雪(1890一1962)及其同事在英国推广,费雪对科学作出了很大贡献,特别是群体遗传学方面,他开拓了试验理论,注意统计方法及其在科学研究领域中的应用。正是费雪。他引进了现在广泛应用的“虚假设”一词(null—,hypothesis),并发展了方差分析的统计方法。
在二十世纪,涌现了许多的著名统计学家,他们积极发展新理论并应用于实践。电子计算机的应用极大地促进了统计的发展。今天研究工作者把统计看作一项最有用的工具.
日常生活普遍受到以数量信息为基础的决策论的影响。现在,假设、试验与假设检验等一系列科学方法已为每个活动领域所熟悉。今天,建立在概率基础上的现代统计方法,作为物理学、生物科学、经济学、社会学、心理学、教育学、医学、农业、工业和政府的助手,正在证明它是不可缺少的。天文学以统计方法为基础,预测天体的未来位置;适当的遗传区分是由统计探明的;生命保险费与年金是以统计记录为基础的死亡表来确定的;能源公司如果没有地区需求的统计资料,就不能有效地供应电力,研究工作者用统计方法来确定农业试验的结果是否显著;工程师发现抽样理论在工业产品质量控制上是非常有用的;企业经理与政府分析家用统计程序作出决策。这些应用的范围虽然很不相同,但使用大量的统计方法则是相同的。统计分拆的某一方面在某个领域也许比在其它领域显得更重要,但一般说来,同一统计方法则可用在所有领域。
在统计研究中有一点要提请注意,认识这一点是很重要的,即没有一个统计方法本身能保证数据不出现错误、绝对准确,不能保证推理没有毛病、结论正确。原始资料一定要正确、方法一定要恰当;而结果一定要由不仅懂得方法,而且要由懂得应用的人来解释。本书是把所讨论的统计方法当作土具,由适当的人掌握,在设计合理的场合加以应用,以取得有用的结论,但统计方法本身并不能创造奇迹。