《女士品茶》

下载本书

添加书签

女士品茶- 第5部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
的比率,你就可以得到一个已知的分布。
正如弗雷德里克?莫斯特勒(Frederick Mosteller)和约翰?图基(John Tukey)所指出的那样,没有这一发现,统计分析注定要使用无限次的回归,没有“学生”的t检验 (这是该发现后来的称谓),分析者将不得不估计观测数据的4个参数,再估计这4个参数估计值的4个参数,接着估计4个新估计值的4个参数……这样继续下去,没有机会得到最终的结果。戈塞特表明,分析者可以在第一步就停止这种估计。
戈塞特的工作有一个基本的假设,即原始测量值服从正态分布。多年以来,科学家使用着“学生”的t检验,许多人渐渐相信,并不需要这项假设。他们经常发现:不管原始测量是否服从正态分布,“学生”的t检验都有相同的分布。在1967年,斯坦福大学(Stanford University)的布拉德利?埃弗龙(Bradley Efron)证明了这一点,更确切地说,他发现了不需要戈塞特假设的一般条件。
随着“学生”t检验的发展,我们不知不觉地习惯于统计分布理论的应用,这一理论在科学界广为流传,相伴而来的是更深层次的哲学问题,这就是我们所说的“假设检验”(hypothesis tests)或“显著性检验”(significance tests)的使用。后面我们会剖析这个问题,现在我们只想强调:“学生”提供了几乎每个人都使用的科学工具,尽管没有多少人真正理解它。
与此同时,“可爱的戈塞特先生”成了两个长期不和的超级天才——K?皮尔逊和费歇尔之间的中间人。尽管他经常对K?皮尔逊抱怨他看不懂费歇尔写给他的东西,他还是保持了与两个人的友谊。他与费歇尔的友谊开始于费氏在剑桥大学读本科的时候,那是在1912年,费歇尔刚刚成为剑桥大学数学学位甲等及格者(最高的数学荣誉),他的天文学导师 介绍两个人认识。当时费歇尔正在研究一个天文学问题,他写了一篇论文,在其中他重新发现“学生”在1908年得到的结果。年轻的费歇尔显然不大知晓以前戈塞特所做的工作。
在费歇尔给戈塞特看的这篇论文中,有一个小错误被戈塞特指了出来。当戈塞特回家的时候,他发现费歇尔写的两大页数学论证正等着他。这个年轻人把自己原先的工作又做了一遍,并加以扩充,还批评了戈塞特所犯的一个错误。戈塞特在给K?皮尔逊的信中写道:“附上一封信,它证明了我关于“学生”t检验的频率分布公式,您是否介意替我看一下。即使我可以理解,超过三维空间我还是觉着不自在。”费歇尔用多维几何证明了戈塞特的成果。
在这封信中,戈塞特说明了自己的如何到剑桥去与朋友会面,而这个朋友恰巧在冈维尔与凯厄斯学院(Gonville and Caius College),是费歇尔的导师,他如何被介绍给这位22岁的学生。他接着写道:“费歇尔这小子写了一篇论文,提出概率的新标准或诸如此类的东西,看起来不错,但就我所能理解的,是一种不切实际且不大管用的认识事物方式。”
在描述了他在剑桥与费歇尔的讨论后,戈塞特写道:
对我们之间的讨论,他的回复是两大页书写纸,上面用最深的墨水写满了他所证明的数学(跟着是一组数学公式)……我看不大懂这些内容,回复他说等我闲下来时准备研究它,实际上我去湖区时随身带着它,可弄丢了。
现在他将这封信寄给我,我觉得如果它还可以的话,您也许愿意发表这个证明,它是这样的完美和数学化,对某些人也许有吸引力。
K?皮尔逊在《生物统计》上发表了费歇尔的短文,就这样,20世纪最伟大的天才之一面世了。3年以后,经过了一连串俯就的信件往来,K?皮尔逊发表了费歇尔的第二篇论文,但事先约定论文须以这种形式出现:它不过是对K?皮尔逊合作者之一所做工作的细微补充。K?皮尔逊再也没有允许他的期刊发表费歇尔的论文。费歇尔继续在K?皮尔逊许多最感自豪的成就中挑毛病,而K?皮尔逊则在稍后几期的《生物统计》中,以社论的方式点出“费歇尔先生”或“费歇尔先生的学生”在其它期刊所发表论文中的错误。这些都将是下一章介绍的内容,戈塞特会在以后几章中的某些地方再度出现,作为一个和蔼可亲的良师益友,他帮助年轻男女进入统计分布的新世界。他的许多学生和合作者都对新数学做出了重要贡献。尽管他本人谦逊地表示异议,但戈塞特的确做出了许多影响深远的贡献。
第4章 在“垃圾堆”中寻觅
1919年春天,费歇尔29岁,他带着妻子、三个孩子和小姨子,搬到了伦敦北部的一间旧农舍里,那儿靠近罗森斯特农业实验站(the Rothamsted Agricultural Experimental Station)。从许多方面来看,费歇尔的人生在别人眼里是失败的。他在孤单和多病的童年中长大,并有严重的视力损伤。为了保护他的近视眼,医生禁止他在人工灯光下阅读。但他很小就接触了数学和天文学,在6岁时他迷上了天文学,七八岁时,他就跑去听由著名天文学家罗伯特?鲍尔(Robert Ball)爵士主讲的通俗讲座。
费歇尔被著名的哈罗公学(Harrow Public School )录取,在那里他的数学是出众的。由于不允许他使用电灯,他的数学导师在晚上教他时,不用铅笔、纸和任何其它视觉辅助品。久而久之,费歇尔发展了一种很强的几何直觉能力。在后来的岁月中,他那非凡的几何洞察力,使他得以解决许多数理统计中的难题。这种洞察力对他而言是那么明显,从而导致他经常不能被别人所理解。在他看来是显而易见的事情,别的数学家往往要花几个月甚至几年的时间去证明。
他于1909年进入了剑桥,在1912年获得了数学学位甲等及格者的头衔,对剑桥学生来说,这是一个很高的荣誉,要得到它必须通过一系列极为困难的口头和笔头数学考试,一般一年只会有一两个学生成功,有的年份甚至没有人能得到这种头衔。当费歇尔还是本科生时,他就发表了他的第一篇科学论文,其中复杂的迭代公式(iterative formulas)被转换成多维的几何空间形式。在这篇论文中,那些在人们眼里一直特别复杂的数学计算公式被转换成简单的几何形式。毕业后他花了一年时间,研究统计力学(statistical mechanics)和量子理论(quantum theory),到1913年,统计革命已经进入了物理学,而新观念已经较为系统地进入这两个领域,并成为正式的大学课程。
费歇尔的第一份工作是在投资公司的统计室,其后他突然离开那里,到加拿大去从事农场工作。后来又在第一次世界大战开始时突然离开农场,回到了英格兰。虽然他被批准入伍,但他那很差的视力使他免于军事服务。战争年代,他在许多公共学校教授过数学,但每一次的经历都比上一次更糟,他对学生们没耐心,因为他们都是不能理解在他看来很明显的事情。

费歇尔与K?皮尔逊
前一章提到,当费歇尔还是本科生时,就在《生物统计》发表了一篇短文。这使得费歇尔有机会见到K?皮尔逊,K?皮尔逊将一个困难的问题介绍给费歇尔:确定高尔顿相关系数的统计分布。费歇尔对此作了思考,用几何公式来处理它,不到一个星期就得出了完整的答案。他把结果交给K?皮尔逊,想在《生物统计》上发表。但K?皮尔逊不能理解其中的数学,把它转给了戈塞特,而戈塞特在理解上也有困难。K?皮尔逊知道如何就特定的案例得到问题的部分结论,他的方法涉及到大量的计算工作,于是便对生物统计实验室的工人做出安排,让他们去计算出这些明确的答案。在每一个案例中,所得到的答案都更加支持费歇尔的一般性结论。但K?皮尔逊仍然不发表费歇尔的论文,他要费歇尔做出修改,并降低费歇尔工作的一般性。K?皮尔逊将费歇尔的东西扣了一年多,同时让他的助手(计算员)计算一个庞大的扩展的表,以表明参数值的分布。最后,他发表了费歇尔的成果,但相对于K?皮尔逊及其助手展示分布表的大块文章来说,费氏的论文只是作为一个脚注。对不经意的读者来说,这样一个结果意味着:K?皮尔逊和他的合作者所做的工作更为重要,那里有大量的数据计算,而费歇尔的数学处理只是一个附属物。
费歇尔再也没有在《生物统计》上发表过文章,尽管它是这一领域的顶尖级期刊。在接下来的年份里,费歇尔的论文出现在《农业科学期刊》(the Journal of Agricultural Science)、《皇家气象学会季刊》(the Quarterly Journal of the Royal Meteorological)、《爱丁堡皇家学会会刊》(the Proceedings of the Royal Society of Edinburgh)、《心理研究学会会刊》(the Proceedings of the Society of Psychical Research)上,而所有这些期刊与数学研究通常都不怎么搭界。据知情者说,费歇尔作出这样的选择是因为K?皮尔逊和他的朋友们成功地将费歇尔逐出数学和统计研究的主流。根据其它人的说法,K?皮尔逊吹毛求疵的态度让费歇尔感到自身受到漠视,同时,他也没能够让类似的论文在《皇家统计学会期刊》(the Journal of the Royal Statistical Society,该领域另一份顶尖的期刊)上发表,于是他转而利用其它期刊,有时甚至付钱请他们发表自己的论文。

费歇尔这个“法西斯”!
费歇尔早期论文有一些是高度数学化的。他论述相关系数的文章,也就是K?皮尔逊最后同意发表的那篇,就充满了数学符号,一个标准页里有一半甚至更多篇幅都是数学公式。但也有一些论文里面压根就没有数学。其中的一篇,他讨论了用达尔文的随机适应理论(Darwin’s theory of random adaptation)来说明最复杂的解剖学结构的方法。在另一篇论文中,他探讨了性别选择进化的问题。费歇尔在1917年加入了优生学运动(the eugenics movement),在《优生学评论》(the Eugenics Review)上发表了一篇社论,呼吁转变国民政策“以增加职业界人士和高技能工匠的生育率”,并抵制下层社会的生育率。他在这篇文章中质疑政府为贫民提供福利的政策,认为这会鼓励他们多生育,并将基因传给下一代,而中产阶级对经济安全的关注会导致他们推迟结婚,并节制生育。费歇尔担心,对整个国家来说最终的结果是:为后代选择了“最差的”而不是选择“较好的”基因。优生学问题是通过有选择的系列来改进人类基因库,这成为费歇尔的主要政治观念。在第二次世界大战期间,他被错误地指责为法西斯主义者,并被逐出了与战事有关的工作。
费歇尔的政治见解与K?皮尔逊不同,后者钟情于社会主义和马克思主义,他同情被压迫者,并喜欢挑战保守的优等阶层。但K?皮尔逊的政治观念对他的科学研究没有什么影响。费歇尔关注优生学,这导致他将相当大的精力投入到遗传学的数学研究中。当时有一种新观念,认为某种植物或动物的特性可能来自一个单个基因,这以两种形式中的一个就可表现出来。从这种观念出发,费歇尔将格雷戈尔?门德尔 的工作大大地推进了,他指出如何估计两个相信基因的彼此影响。
存在着控制生命性质的基因,这一观念是科学中广义统计革命的一个部分。我们观察植物和动物的我,专业上称之为“表型”(phenotypes)。但我们假设这些表形是基因之间交互作用的结果,而这些基因的交互作用又具有不同的概率。我们寻求以这些主要的和不可见的基因方式,来描述“表型”的分布。在20世纪后期,生物学家识别出这些基因,以确定它们让细胞制造什么样的蛋白质,我们说起这类事就像真的一样,但我们所观察到的还只是概率的分布,我们所说的基因,即DNA链,正是来自于这些分布。
我们这本书说的是总的统计革命,费歇尔在这场革命中起了很重要的作用。他对自己作为遗传学家所取得的成就感到自豪,他的一半以上的成果是与遗传学有关的。现在,我们不再把费歇尔当作一个遗传学家,而主要看他在一般统计技术和观念方面取得的进展。这些观念的萌芽在他的早期作品中就可以发现,但这些观念的全面发展,却是他在工作期间的事,那发生在20世纪20年代到30年代。

《研究工作者的统计方法》
虽然费歇尔在这段时间被数学界忽视了,但他所发表的论文和著作极大地影响了农学和生物学界科学家的工作。在1925年,《研究工作者的统计方法》(Statistical Methods for Research Workers)第一版面世。之后,这本书仅英文版就出了14个,此外,还有法文、德文、意大利文、西班牙文和俄文的译本。
《研究工作者的统计方法》与这之前的数学著作不同,通常数学著作都有许多定理及其证明,并展开抽象的概念将之一般化,与其它抽象概念联系。如果说这类书中有什么应用的话,也只是放在完整的数学描述和证明之后。《研究工作者的统计方法》从如何利用数据制图及如何读图开始,第3页就出现了第一个实例,展示一个婴儿生命头13周每一周的重量,这个婴儿就是费歇尔自己的头生子——乔治(Gee)。接下来的各章描述如何分析数据:费歇尔给出一些公式,列举一些实例,解读这些例子的结果,然后再转到其它公式。书中没有对公式的数学推导和证明,却带有详细的技术说明,并交待如何在机械计算器上应用它们。
尽管,或者说正是因为缺少理论数学,这本书迅速地被科学界采用。它顺应了现实需求,可以把这本书直接交给只受过有限的数学教育的实验室的技工,让他们自己应用。使用这本书的科学家认为费歇尔的主张是正确的,而评论这本书的数学家则对书中未加证明的大胆论述持怀疑态度,许多人弄不明白他是怎么得出这些结论的。
第二次世界大战期间,瑞典的数学家哈拉尔德?克拉美(Harald Cramér)被战争隔绝于国际科学界外,他花了

小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架