那几年每日的降雨量。随时间所搜集得来的数据并不是独立的,他通过创建一组很复杂的参数来应对这一难题。他找到了一些有限的解,但这些解所根据的简化假设可能并不成立。费歇尔无法再进一步解决这个问题,也没有人继续从事他这项未完成的研究。
当然,我们说的没有人,是指在柯尔莫哥洛夫出现之前。柯尔莫哥洛夫把随时间搜集得来的前后相联的这一数值序列,称作“随机过程”(stochastic process)。他的许多篇先驱性论文(正好在二次世界大战爆发前发表)为美国的N?维纳、英国的乔治?博克斯(Gee Box)以及他自己在俄国的学生进行更深入的研究奠定了基础。由于有了柯尔莫哥洛夫的思想,现在我们已经能够对那些随时间搜集上来的纪录时行检查分析,而且可以得出很专门的结论。我们可以利用加州海岸的海浪数据来定位印度洋上的风暴;无线电波望远镜能区分不同来源的无线电波(或许有一天甚至还能接收到其它星球上高等生物发出的信息);我们有可能分辨一组震波纪录究竟是地下核弹试爆引起的,还是天然的地震引起的。在工程学的期刊上,许多文章所采用的方法都是根据柯尔莫哥洛夫对随机过程的研究成果而发展出来的。
现实生活中概率的意义是什么?
在生前的最后几年,柯尔莫哥洛夫攻关一个更困难的问题,这个问题不公是个数学问题,而且还是个哲学问题。到他去世的时候,这个问题还没有完全获得解决。不过,一代数学家已经在认真思考如何接续他的思路进行研究。在我写这本书的时候,这个问题还没有解决。不过,正如我在最后一章将要指出的,如果这个问题一直无法解决,那么对科学来说,统计方法的整个体系就会被它自己的前后不一致所搞垮。
柯尔莫哥洛夫研究的最后一个问题是:在现实生活中,概率的意义是什么?他已经为概率提出了一个令人满意的数学理论。这意味着,概率的所有定理和方法都是内部自身前后一致的。科学的统计模型则跳出了纯数学领域,把这些定理应用在现实问题上。为了做到这一点,柯尔莫哥洛夫为概率理论所提出的抽象数学模型,必须找到与现实生活某些方面的对应关系。实际上已有上百种方法想解决这个问题,每一种方法对概率在现实生活中的意义都提出了不同的解释,但每种方法都受到了批判。这个问题非常重要,因为如何解释统计分析的数学结论的涵义,取决于你如何在这些公理与现实生活中的情况之间找到对应的关系。
在柯尔莫哥洛夫的概率理论的公理化过程中,我们假设存在一个抽象空间,空间里的元素称为“事件”(event)。该空间中事件的集合,可以像我们测量门廊的地板面积或电冰箱的体积一样进行测量。如果对抽象的事件空间的测量满足某些公理,则称该空间为概率空间(probability space)。为了在现实生活中应用概率理论,我们得找到这个事件空间,而且要非常明确具体,这样我们才能实际计算出该空间概率的测试值。当一个实验科学家使用统计模型来分析实验的结果时,这个空间是什么?威廉?西利?戈塞特认为这个空间是实验的所有可能结果的集合,但他无法证明应该怎样计算与该空间有关的概率。除非我们能够确定出柯尔莫哥洛夫的抽象空间,否则由统计分析得到的概率陈述会有很多不同的意义,有些意义还可能互相矛盾。
例如,假设我们进行一项临床实验,以检验一种艾滋病新疗法的功效。假定统计分析显示,旧的疗法和新的疗法之间的功效差异是显著的。那么这是否意味着,医学界可以确信这一新的疗法能治愈下一个艾滋病病人呢?或者是否意味着,这个新疗法对一定百分比的艾滋病病人有效?或者仅仅是表示,只有对实验中经过高度筛选的这群艾滋病病人,新的疗法才会有效?
要找出概率的现实意义,通常可以通过柯尔莫哥洛夫的抽象概率空间给出现实的解释来实现。柯尔莫哥洛夫用的则是另外一种方式。他结合了热力学第二定律、K?皮尔逊的早期研究,以及一些美国数学家为了找出信息的数学理论所进行的研究尝试,还有保罗?利维对大数定律的研究,然后他从1965年开始,陆续撰写了一系列的论文,撇开了有关的公理和他自己对这一数学问题的解,而把概率视为……
1987年10月20日,柯尔莫哥洛夫去世。而在他逝世前最后那几年,他依然活力十足,具有独创性的观念仍源源不绝地涌出——至今仍无人能拣起他留下来的线索。
苏联统计学界的失败
虽然柯尔莫哥洛夫和他的学生在概率和统计的数学理论上有重大的贡献,但苏联从这场统计革命中却获益很少。为什么会如此?这个问题本身就提供了一个案例,说明当一个政府对所有的问题都知道其“正确”答案时,会发生什么后果。
在沙皇统治时代的末期以及俄国大革命开始的这段期间,俄国的统计学界相当活跃。俄国数学家在英国和欧洲发表的论文,被国际学术界广泛知晓。俄国数学家与农业学家的论文常发表在《生物统计》期刊上。具有革命精神的俄国政府设立了一个中央统计局,并且在各个苏维埃共和国里也设置了类似功能的地方统计局。中央统计局进行了一份报导统计学术活动的期刊《统计学通报》(Vestnik statistiki - herald,1994后改名为《统计学研究》,即Voprosy statistiki - statistical studies——译者注),上面有很多英文与德文期刊的论文摘要。在1924年年末,《统计学通报》上发表了一篇论述统计设计如何应用在农业研究上的文章。
随着20世纪30年代斯大林肃反运动的到来,所谓正宗的共产主义理论也渗透到学术界各个领域。在一些所谓的共产主义理论家看来,统计学是社会科学的一个分支。所有的社会科学都应服从于中央计划。随机变量的数学概念是统计方法的核心,但由于随机变量(random variable)译成俄文时,译成了“偶发数量”(accidental magnitude),所以对中央计划者和理论家来说,这种概念显然是一种冒犯。在前苏联,所有的工业与社会活动,都是计划出来的,没有什么事是偶然发生的。偶发数量可能描述资本主义经济中所观察到的事情,但绝不是在俄国。因此,数理统计的应用研究很快就受到压制。在1956年的《数理统计年报》(The Annals of Mathematical Statistics)中,S?S?扎尔科维克(S。 S。 Zarkovic)写了一篇回顾苏联时期统计发展史的文章,里面就很委婉地讲到:
随后几年,在俄国的统计学发展过程中,政治考虑成为愈来愈显要的因素,这便导致了在统计实践活动中理论应用的逐渐消失。到了20世纪30年代末期,《统计学通报》停止刊登用数学处理统计问题的论文。到了20世纪30年代结束时,这方面的论文完全销声匿迹,而且从此没再出现。这种趋势的结果是,统计学家完全放弃了应用,躲回到大学校园和其他研究机构中,以其他学科的名义从事统计研究。柯尔莫哥洛夫、N?V?斯米尔诺夫(N。 V。 Smirnov)、V?I?罗曼诺夫斯基(V。 I。 Romanovsky)以及其他很多人,都正式地离开统计学,变成数学家了。一个很有趣的例子是E?斯卢茨基(E。 Slutsky),他本来是世界知名的计量经济学大师,结果连他也放弃统计学,改行去做天文学研究……。依照官方的观点,统计学变成了为政府制定国家经济计划的工具,当然它是一种社会科学,或换句话说,是一种阶级科学。其中的大数定律、随机离差思想,以及其它任何属于统计学的数学理论,都被当成是错误通论的构成元素,而遭到清除。
不只是官方的观点制约了统计学的发展。斯大林依赖一个大言不惭的生物学业家特罗菲姆?D?李森科(Trofim D。 Lysenko),他拒绝接受遗传学的基因理论,声称动植物的遗传特征可以由环境来塑,毋需藉由遗传。那些想遵行费歇尔的成果以数学方式研究遗传学的生物学家都受到排斥,有些甚至入狱。当教条的理论降临苏联统计学界时,由中央统计局和它的下属统计局报出来的数据,也越来越受质疑。在中央计划之下,乌克兰与白俄罗斯共和国的肥沃农田,都变成泥泞的荒地,一大堆粗制滥造的机械成品根本不好用,支离厂矿的消费品由工厂流出来,也根本派不上用场。苏联甚至连填饱老百姓的肚皮都存在困难。唯一有效进行的经济活动是黑市交易。然而,中央政府依然捏造出虚假、乐观的统计数字,真实的经济活动水平被许许多多的经济增长率的比率指标所掩饰了。
此时,一些美国数学家,像诺伯特?维纳,则开始利用柯尔莫哥洛夫和亚力山大?亚?赫因强(Alexander Ya Khintchine)所提出的随机过程定理,强化美国的国防事务,而美国国家标准局的沃尔特?休哈特(Walter Shewhart)与其他人,则向美国工业界展示如何运用统计方法来控制产品投师。此外,美国、欧洲及一些亚洲地区的农场,作物的产量都在飞速提高。相反,苏联的工厂仍在生产一些没有用的东西,他们的农业依然无法解决人民的温饱问题。
直到20世纪50年代,尼基塔?赫鲁晓夫(Nikita Khrushchev)开始掌权,官方理论的控制开始放松,开始尝试把统计方法应用在工业与农业上。不过,官方的“统计”仍然是充满了假的数字与精心制作的模糊内容,而尽全力试图出版的应用统计学期刊,结果也只是不定期地出了几期而已。一直到20世纪90年代末期,苏联政府与它的中央计划经济制度完全解体,俄罗斯工业界才有机会大量采用现代统计模型。
也许这件事给大家都上了宝贵的一课。
第15章 “小人物”之见解
弗洛伦斯?南丁格尔(florence Nightingale)是英国维多利亚时期的传奇人物。与她打交道的国会议员和军事效仿视她为一个令人头疼的人物。一般人只把她看作是护士这个行业的创始人,一个温文尔雅、具有自我牺牲精神照料病人的护士。其实,是个很有使命感的女人,同时她也是一位自修成功的统计学家。
南丁格尔的一个使命是,强迫英国军方在战地开设医院,为战场上的士兵提供护理与医疗照顾。为了支持她自己的主张,她曾埋头于研究堆积如山的军事档案。后来,她带着一系列令人瞩目的资料与图表出现在皇家委员会面前。在这些资料和图表中,她指出在克里米亚战役(Crimean War)期间,英军死亡的主要原因是在战场外染上疾病,以及战场上受伤之后没有得到及时的照料所致。为了展示她的相关数据与资料,她还发明了饼图(pid chart)。和这些愚钝而又不学无术的军事将领打交道,南丁格尔感到很疲惫,于是她就会躲到艾文顿(Ivington)小村去住上一段时间,在那里,她总是会得到她的好朋友大卫一家人的欢迎。当年轻的大卫夫妇喜获千金时,还用她的名字为女儿命名,取名叫弗洛伦斯?南丁格尔?大卫(Florence Nightingale David)。南丁格尔的充沛精力和创造精神似乎也传给了这位同名的女孩(她一生以F?N?大卫的名字出版了10本书,在科学期刊上发表了一百多篇论文)。F?N?大卫在1909年出生,5岁的时候,第一次世界大战的爆发中断了她受教育的正常进程。由于住在偏僻的小乡村,大卫一开始接受的教育是当地牧师办的私人学堂。这位牧师对这个小弗洛伦斯?南丁格尔?大卫的教育有一些奇特的想法。他注意到这个小女孩已经学过一些自述知识,因此就开始教她代数。他发觉她已经学过英文,因此就开始教她拉丁文和希腊文。到她10岁的时候,大卫才转到普通学校接受教育。
到了大卫该上学的年龄时,听到大卫想要读伦敦的大学学院(University College,London),她的母亲大吃一惊。这个大学学院是英国哲学家杰里米?边沁(Jeremy Bentham)创办的(边沁的遗体经过弄干保存,如今还穿着正式的衣服展示在学院的回廊上)。这个学校是为“野孩子、异教徒,及不愿信奉三十九条教规(即英国国教基本教义——译者注)的人”而设立的,因为在该校创办之前,进入英国所有大学的教师和学生都必须信奉英国国教。就在大卫准备进大学的时候,大学学院还是不信奉英国国教的新教徒的温床。“那时,母亲对我要到伦敦大学学院念书……总觉得不光彩、不正当,诸如此类。”因此,她最后进了伦敦的贝德福德女子学院(Bedford College)。
很久以后在一场录音谈话里,她对哈佛公共卫生学院的纳恩?莱尔德(Nan Laird)教授透露,“我非常不喜欢贝德福德学院,但我倒是很喜欢每晚到剧院看戏。如果你是学生,你就可以花6便士到维多利亚剧院看一场戏……我当时过得非常快乐。”她接着说,在学校里,“有3年时间我只学数学,其它什么都没学,但我很不喜欢这样。我甚至不太喜欢学校里的人,可能当时我很叛逆吧。不过我并不怀念那段大学岁月。”
她在学校里学了这么多的数学,毕业之后能用来干什么呢?她想当个保险精算师,但当时这个行业只招男性。有人建议她去找大学学院中一位叫K?皮尔逊的教员,该教员研究的事情可能与精算或此类事情有关。于是她就来到大学学院,“我直接就去找了K?皮尔逊。”皮尔逊挺喜欢她,给她一笔奖学金让她继续学业,并且做他的研究生。
为K?皮尔逊工作
在为K?皮尔逊工作期间,大卫做的主要事情是计算一些复杂和困难的多重积分问题,以及计算相关系数的分布。这项工作使她写出了她的第一本著作《相关系数表》(Tables of the Correlation Coefficient),这本书最终在1938年正式出版。在那些年里,刀子所有的计算工作都是靠一架名为“布伦斯维加”(Brunsviga)的手摇式曲柄计算机完成的。“我估计我大概摇了那架计算机两百万次……我常常碰到机器卡住这种倒霉的事,在我学会使用长