《女士品茶》

下载本书

添加书签

女士品茶- 第7部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
我可以想象得出来,当费歇尔提出小地块定型处理将得到更为细心的实验时,罗森斯特的科学家们之间也会有这样的讨论。我也可以想象,当讨论集中到如何确定土地的肥力梯度时,费歇尔笑咪咪地坐在一边,听任他们卷入复杂的争论。他已经考虑过这些问题,并有了简明的答案。了解他的人这样描绘费歇尔:即使是争论触及到他,他仍是静静地坐在那里,吞云吐雾,等等容他给出答案的时机。终于,他拿开嘴上的烟斗,说道:“用随机的方法吧!”

费歇尔的变异数分析
的确简单,科学家以随机的方式设计同一地块里不同行家作物的处理,由于随机处理没有固定模式,任何可能的肥力梯度结构都在平均意义上被抵消掉了。费歇尔猛地起身,兴奋地在黑板上写了起来,一行又一行数学符号,手臂在数学公式间挥来挥去,抵消公式两端相同的因子,最后出现的可能是生物科学中最为重要的工具了,在精心设计的科学实验中,如何分解各种不同处理的效应?费歇尔将这个方法称作“方差分析”(ananlysis of variance)。在《作物收成变动研究Ⅱ》中,方差分析第一次面世。
《研究工作者的统计方法》列出了方差分析某些例子的计算公式,但在这篇论文中,他给出了公式的数学推导,不过推导过程还没有详尽到学院派数学家满意的程度。所展示的代数式是为了这样一种特殊情形:比较三种类型的人工肥料、十种不同品种的马铃薯和四个地块。如果比较两种人工肥料、五种马铃薯,或者六种人工肥料、一种马铃薯,则需要几个小时的艰苦工作,以调整出新的代数式。至于搞出适合所有情形的一般公式,就需要更多的数学工作了,恐怕得出几头汗水吧!当然,费歇尔知道一般公式,对他来说,那是如此的明显,以至于没有必要展示它们。
难怪与费歇尔同时代的人对这个年轻人的成果感到困惑!
《作物收成变动研究Ⅳ》介绍了费歇尔年说的“协方差分析”(analysis of covariance),这是一种因素分解的方法,存在着并非由实验设计而来的条件,它们的效应是可以测量的。当时某医学期刊上发表了一篇论文,描写了针对性别和体重所做调整的治疗效应,用的实际上就是费歇尔在Ⅳ号论文中开创的方法。Ⅳ号论文提出了实验设计的精华,Ⅲ号论文,即史密斯教授推荐给我的那篇,将在本章后边一点儿再讨论。

自由度
1922年,费歇尔终于第一次在《皇家统计学会期刊》上发表了他的论文。那是一篇短文,适度地指出了K?皮尔逊公式中的一个错误,许多年后谈到这篇论文,费歇尔写道:
这个短文,尽管带着稚气,不那么完整,但却是破冰之举。它是带试验性质的,并且零零碎碎的,有的读者会因此而气恼,可他们不要忘了,它不得不在批判者中找到发表的渠道。对这些批判者来说,摆在第一位的就是绝不相信K?皮尔逊的成果需要改正,即使是承认了这一点,他们也觉得这事轮不到别的人。
1924年,费歇尔得以在《皇家统计学会期刊》发表别一篇论文,更长一些,更为一般化。后来在一份经济学期刊上,他对这篇论文及相关的另一篇做了如下的评论:“(这两篇论文)要借助于‘自由度’(degrees of freedom)这个新概念,来调和由不同作者观测到的有差异和表现异常的结果……”
自由度这个新概念是费歇尔的发明,这直接得益于他的几何洞察力和将数学问题置于多维几何空间的能力。所谓“异常的结果”出现在一本不大引人注目的书里,那是一个名叫T?L?凯利(T。 L。 Kelley)的人在纽约出版的。凯利发现有一些数据用K?皮尔逊的公式似乎不能得出正确的答案。看来只有费歇尔注意到了凯利的这本书,凯利的异常结果只是作为一个跳板,借此费歇尔彻底推翻了K?皮尔逊另一个最引以为自豪的成就。

《作物收成变动研究Ⅲ》
《作物收成变动研究》第三篇发表在1924年的《伦敦皇家学会哲学学报》(the Philosophical Transactions of the Royal Society of London)上,它是这样开头的:
现在就气候对农作物影响而言我们知之甚少,尽管它对一个大的民族产业如此重要。课题的难解,部分地可以归于问题本身固有的复杂性,还有……缺少在实验或者自然产业条件下所取得的数据……
按下来就是长达53页的精彩论述,其中包含着现代统计方法的基础,任何学术领域,包括经济学、医学、化学、计算机科学、社会学、天文学、药学,只要是需要建立大量相互关联原因的相关效应,就需要应用这些方法。论文中包含了特别精巧的计算方法(回想一下费歇尔只有那台手动的“百万富翁”用来工作),及如何为统计分析组织数据的良策。我将永远感激史密斯教授,他把这篇文章推荐给我,每次我读起它都会有新的收获。
《费歇尔文集》有五卷本,第1卷以1924年的论文作为结尾,靠近卷尾的地方,有一张费歇尔34岁时的照片,他双手交叉在胸前,胡子修理得挺整齐的,眼镜也没有以前照片中的那么厚,神情安详而自信。在这之前的5年里,它在罗森斯特建立了出众的统计部门,雇用了像弗兰克?耶茨(Frank Yates)那样的合作者。在费歇尔的鼓励下,耶茨将继续对统计分析的理论和实践做出贡献。除了少数例外,K?皮尔逊的学生大多默默无闻,当他们在生物统计实验室工作的时候,只能协助K?皮尔逊而不能超越他;反观费歇尔,他的多数学生响应了所得到的鼓励,独辟蹊径,赢得了辉煌。
1947年,英国广播公司(BBC)广播网邀请费歇尔做一个系列讨论,阐述科学的本质与科学研究,在其中一讲的开头,费歇尔这样说道:
科学生涯从某些方面看是奇异的,科学存在的理由,是要增加对自然知识的认知。有时候,虽然会有这种认知的增加,但是这个过程不是顺利的,并且是令人感到痛苦的。理由是:人们不可避免地会发现以前所得出的观点,至少在一定程度上,明显是过时的或者错误的。我想大多数人可以认识到这一点,如果已经教授了10年左右的东西需要修正,他们会以下面的态度加以接受。但有一些人绝对不能接受,就好像打击了他们的自尊心,甚至是对他们一直把持的私有领地的侵犯。他们必然做得像知更鸟和苍头燕雀寻亲残忍,在春天里我们可以看到,当自己的小巢被冒犯里,它们所表现出的愤怒反应。我并不认为能对此做什么补救。这是科学过程中所固有的特性。但年轻的科学家应该得到提醒和指导,当他们奉献出珍宝去丰富人类的宝库时,必然有人会拒绝他或排挤他。
第6章 “百年不遇的洪水”
有什么能比百年不遇的灌水更让人无法预料的呢?洪水奔腾肆虐,泛滥成灾,惨烈至极,确实是百年难得一遇。谁能为这样的突发事件制定防范计划呢?像这样罕见的洪水,我们又怎么能估计其洪峰会高达多少呢?如果说现代科学有统计模型能用来处理观测数据的分布,那么,对这种未曾发生过,或者即便发生,也是百年才发生一次的大洪灾,又该如何用统计模型来分析呢?伦纳德?亨利?凯莱布?蒂皮特(Leonard Henry Caleb Tippett)找到了答案。
L?H?C?蒂皮特1902年出生在伦敦,并在伦敦的帝国学院(Imperial College)读物理学,1923年他从帝国学院毕业。蒂皮特曾说过,他之所以被物理学所吸引,是因为物理学对“精确测量的坚持,……和当时科学辩论的那种学院式方法。回顾自己年轻时的激情,他继续说:“我们通常是把一个假设视为对或错,并把至关重要的实验当作加深认识的主要手段。”当他有机会做实验时,他发现实验的结果与理论预测的结果从未有过精确的一致。依据他自己的亲身体验,他说:“我发现最好是去改进抽样技术(这里他指的是统计分布),而不是丢弃理论。”蒂皮特认识到,他如此钟爱的理论所提供的信息仅仅是有关参数的,而不是具体的观测值。
这样,L?H?C?蒂皮特(当他因发表的文章而著称的时候)通过他自身对实验的理解,开始融入统计变革中来。从帝国学院毕业后,他在英国棉花工业研究协会任统计师。人们通常称这个研究协会为雪莉研究会(Shirley Institute)。该研究会的研究目标主要是利用现代科学方法改进棉线与棉布的生产工艺,其中,他们所遇到的最棘手的问题之一是新纺棉线的强度。因为,即使是在相同条件下纺出来的棉线。其强度也存在很大的差异。蒂皮特非常仔细地做了一些试验,在显微镜下观察那些经过不同拉力抻拉后的棉线,结果他发现,棉线的断裂取决于棉线中最脆弱的纤维的强度。
居然是那些最脆弱的纤维!那么,怎样建立一个描述最脆弱的纤维强度的数学模型呢?由于无法解决这个难题,蒂皮特提出申请,并于1924年获准,到伦敦的大学学院高尔顿生物统计实验室(the Galton Biometrical Laboratory),在K?皮尔逊手下进修一年。关于这段经历,蒂皮特这样写道:
在大学学院度过的那段时光让我刻骨铭心。K?皮尔逊是位非常了不起的人物,并且我们也能深切地感受到他有多了不起。他工作勤奋、充满热情,而且关于激励他的下属和学生。我在那里进修的时候,K?皮尔逊依旧在做研究,并且经济热情洋溢、充满激情地出现在课堂上,讲解他刚刚研究出来的最新成果。那些年,虽然他的研究方式有点过时了,但他讲的课仍旧激动人心。……有一门他讲授的课程“17和18世纪的统计学史”,就是他研究兴趣广泛的一个典型代表。……他还是个精力充沛的辩手,……他出版了一套丛书,就叫做《一个好问者与他的问题》(Questions of the Day and of the Fray)……昔日充满活力与辩论的影响随处可见。系里的墙上装饰着格言与漫画,……有一幅关于“油嘴山姆”(Soapy Sam)的讽刺漫画,画的是那位大名鼎鼎的威尔伯福斯大主教(Bishop Wiberforce),漫画作者名为“间谍”。1860年在英国科学促进协会的会议上,这位大主教曾就达尔文的进化论与T?H?赫胥黎(T。 H。 Huxley)进行过一场短兵相接的舌战。此外,还陈列了一些在过去数十年内发表过的出版物,看这些出版物的题目会给人留下一个深刻的印象,那就是该系的研究兴趣十分广泛。如“人类遗传宝典(人的身体、精神与病理牲的谱系)”以及“达尔文进化论、医学发展与优生学”。在一次全系 的年度聚餐会上,K?皮尔逊用一种曾为高尔顿提供年度工作报告的方式来总结这一年的工作,就好像高尔顿依然健在,这让我们大家想起他与高尔顿之间非常密切的合作。于是我们共同举杯,“为已故去的生物统计学前辈干杯。”
这是K?皮尔逊一生中还活跃的最后几年,此后,他的科学成就大部分都被费歇尔和自己的儿子扫进了垃圾桶,成了被遗忘的思想。
尽管在K?皮尔逊在实验室里有那么多激励,尽管蒂皮特在进修期间学到很多数学知识,然而有关最不牢固的纤维强度的分布问题依然没有解决。回到雪莉研究所之后,蒂皮特发现了学期在最伟大的数学发现背后的一个简单的合乎逻辑的原理,他找到了一个看似简单的方程式,它能把样本数据的分布与极值(extreme values)的分布连在一起。
能写出方程式是一码事,解出这个方程则是另外一码事。为此,他去请教K?皮尔逊,但没有获得丝毫的帮助。在过去的75年里,工程学专业已经积累了大量的方程及其解,这些都能在那些大部头的概览中查到。然而,在这些概览中蒂皮特却找不到他的方程式。
于是,他采用了一个做法,就像一个可怜的高中生做代数题一样,先猜了一个答案,并把答案代进方程式,居然解出了这个方程。但是,对这个方程式而言,这是唯一解吗?对他的问题而言,这恰好是“正确”答案吗?为此,他请教了费歇尔,费歇尔不仅能导出蒂皮特所猜的解,而且还给出了另外两个解,并指出,这些就是仅有的解。这就是所谓的“蒂皮特的三条极值渐近线”(Tippett’s three asymptotes of the extreme)。

极值分布
知道极值分布有什么用处?如果我们知道极值分布与正常值的分布之间的关系,就可以记录每年洪峰的高度,并预测百年不遇的洪灾发生时最有可能的洪峰高度。能够这样做的原因是,每年的灌水测量值给我们提供了足够的信息,用它就可以蒂皮特分布的参数。因此,美军工兵署(USACE)就能计算出在河上究竟该筑起多高的堤防,环保署就能规定气体排放标准来控制工业烟囱废气突然排放的极值,棉纺工业就能确定在棉线生产中究竟有哪些因素会对最脆弱的纤维强度的分布参数产生影响。
1958年,当时在哥伦比亚大学(Columbia University)任工程学教授的埃米尔?J?冈贝尔(Emil J。 Gumbel),出版了那本关于极值的权威教材,书名是《极值统计学》(Statistics of Extremes)。自那时起,由于他的思想已经扩展到许多相关的地方去,极值理论方面的建树就很少了。然而,冈贝尔的这本教材里包含了一个统计学家在处理这类问题时必备的一切知识,书中不仅包括蒂皮特的原创研究成果,而且还包括后来对该理论的精心的改进,其中有很多都是冈贝尔自己的研究成果。

政治谋杀
冈贝尔的一生富有传奇性。在20世纪20年代末至30年代初,他是德国一年大学里资历尚浅的一名教师。从他早期发表的论文中看得出来,他是个极具潜能的人,只是当时还没有机会得到一个令人尊敬的地位罢了。同样,他当时的职位也远算不上稳固,是否有能力养家糊口,还取决于政府那些权威的随心所欲。当时,纳粹在德国境内已经渐趋猖獗,国家社会主义工人党 虽然是正式的正常组织,实质上却是由一群歹徒纠集而成的。俗称“褐衫队”(Brown Shirts)的纳粹冲锋

小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架