�
第二次世界大战期间,瑞典的数学家哈拉尔德?克拉美(Harald Cramér)被战争隔绝于国际科学界外,他花了相当多的时间来费歇尔的这本书和所发表的论文,补充了原来缺失的证明步骤,并推导出原来没有的证明。1945年,克拉美出版了一本书,书名叫作《统计的数学方法》(Mathematical Methods of Statistics),对费歇尔的许多著述给出了正式的证明。不过,克拉美只能对这位多产天才的论述进行选择性的证明,费歇尔的很多著述在克拉美的书中都没有包括进去。克拉美的书被用来教授新一代数学家和统计学家,他把费歇尔著述的“修注”编写成一个标准范式。在20世纪70年代,耶鲁大学(Yale University)的L?J?萨维奇(Savage)阅读了费歇尔最初的论文,发现里面有很多东西都被克拉美遗漏了。他还惊讶地看到,费歇尔对后人的工作早有预见,并且已经解决了在20世纪70年代被认为还没有解决的问题。
但所有这些对1919年的费歇尔来说都是未来的事情,当时他正打算放弃不成功的学校老师职业。实际上他刚刚完成一项里程碑意义的工作:将高尔顿的相关系数与门德尔遗传学的基因理论结合在一起。但皇家统计学会和K?皮尔逊的《生物统计》都拒绝刊登这篇论文。费歇尔听说爱丁堡皇家学会正在寻找适于他们的《交流》(Transaction)上发表的论文,但期望由作者本人支付印刷成本,就这样,费歇尔自费将自己第二项伟大的成果交给这样一个当时并不起眼的期刊发表。
在当时,K?皮尔逊仍对年轻的费歇尔印象很深,他想聘请费歇尔到高尔顿生物统计实验室担任首席统计师,两个人之间的通讯来往是诚恳的,但对费歇尔来说,K?皮尔逊显然是一个主观意志很强并有支配欲的人,所谓首席统计师,充其量不过是在K?皮尔逊的指令下,从事细节的计算工作。
罗森斯特实验站与农业实验
当时,罗森斯特农业实验站(Rothamsted Agricultural Experimental Station)的所长约翰?罗素(John Russell)爵士也与费歇尔取得了联系。这个实验站是由一个英国的肥料制造商在一个旧农场里建立的。这个旧农场曾属于该肥料公司原来的主人。农场的粘土并不特别适于种植什么作物,但主人发现了如何将石头磨碎与酸混合,生产一种被称作“过磷酸石灰”(SuperPhosphate)的肥料的方法。从过磷酸石灰生产得到的利润用来建立一个实验站,以开发新的人工肥料。90年下来,这个站进行了许多实验,测试无机盐肥料与不同品第的小麦、黑麦、大麦和马铃薯的不同组合。这积累了一大仓库的数据,有雨量和温度准确的日记录、施肥追肥和土壤测量的周记录、收成的年度记录。所有这些都保存在皮面笔记本中。大多数这样的实验没有产生一致的结果,但这些笔记本被小心地存放在实验站的档案室中。
罗素先生看着积累下来这么多资料,想到也许应该雇个人来看看里边有什么东西,对这些资料进行一次统计整理。他四处询问,有的人推荐了费歇尔。罗素跟费歇尔签了一年的合同,给出了1000英磅的酬劳,他只能出这么多了,而且不能保证第二年续聘。
费歇尔接受了罗素的聘任,带着妻子、小姨子和三个孩子来到了伦敦北部的农区。他们租下了实验站旁边的一间农舍,妻子和小姨子打算在那里种种菜园,操持家务,而费歇尔则空上靴子,穿行在农业实验站的田间和90年的数据中,做起他后来称之为“在垃圾堆中寻觅”的工作。
第5章 收成变动研究
在我担任生物统计学家不久,一次去康涅狄格大学与休?史密斯教授讨论我所遇到的问题,他给了我一份礼物,那是一篇论文的复印件。论文有53页长,题目是《作物收成变动研究Ⅲ:降雨量对罗森斯特小麦收成的影响》(Studies in Crop Variation。 Ⅲ。 The Influence of Rainfall on the Yield of Wheat at Rothamted)。这是一组杰出的数学论文的第三篇,其第一篇1921年发表在《农业科学期刊》第11郑上。产量变化是实验科学家的大忌,但却是统计方法研究的基本素材。在现代科学文献中,“变动”(variation)这个词已经很少被用到了,它已经被其它术语代替,比方说“方差”(variance),这个术语与特定的参数分布有关。“变动”对一般的科学用途来说过于含混,但对费歇尔而言,却是合适的,作物产量在年份之间、地块之间的这种变动,正是作者研究的起点,借此,他可以推导出新的分析。
大多数科学论文在结尾都有参考文献目录,一个长长的单子,以确认对所讨论问题曾经有过建树的论文。费歇尔系列论文的第一篇却只有三篇参考文献:其一,指明了1907年一次不成功的尝试,打算探讨降雨量与小麦生长的相关性;其二,1909年以德文写成的,描述了一种计算复杂数学公式最小值的方法;其三,是由K?皮尔逊发表的一组数表。先前没有什么论文涉足过这一杰出研究系列所涵盖的题目。《作物收成变动研究》是自成一格的,署名的地方写着:罗纳德?A?费歇尔,文学硕士,罗森斯特农业实验站统计实验室,哈盆登(Harpenden)。
1950年,出版商约翰?威利(John Wiley)征求费歇尔的意见,看他是否愿意从所发表的论文中挑选一些最重要的,好单独形成一本文集。后来这本文集的名称叫做《对数理统计的贡献》(Contributions to Mathematical Statistics)。一打开书,就是费歇尔当时的照片,他一头白发,双唇紧闭,领带稍微有点斜,白胡子梳理得不大好,书中标明费歇尔当时在剑桥大学遗传学系工作。《作物收成变动研究Ⅰ》是该文集中的第一篇文章,作者在文章前面加了一个序言,以明确该文的重要性及其在他全部成果中的地位:
早期在罗森斯特的工作中,作者对研究站多年积累下来的大量观察数据,如天气、收成、收成分析等,给予了极大的关注。气象记录在多大程度上能够提供来年收成的预测?对于这类问题,上述数据是有独特价值的。现在这篇文章是用于此目的的系列研究的首篇。
这个系列研究最多有6篇论文,《作物收成变动研究Ⅱ》发表在1923年,而史密斯先生给我的那篇标号为“Ⅲ”,在1924年问世。《作物收成变动研究Ⅳ》则在1929年发表。标号为“Ⅴ”的论文没有出现在费歇尔的文集中。在科学史上还很少有这种事件:标题那么不起眼,而其内容却如此重要。在这些论文中,费歇尔开发了用于数据分析的原创性工具,建立了这些工具的数学基础,并描述了如何将它们应用到其它领域中去,包括如何应用到他在罗森斯特所遇到的“垃圾堆”上。这些论文表现了令人眩目的原创性,充满了奇妙的内涵,这足够理论家们在20世纪余下来的日子里忙乎的,也许那之后还会继续激发更多的研究。
《作物收成变动研究Ⅰ》
费歇尔系列研究的后两篇文章是有共同作者的,但《作物收成变动研究Ⅰ》却是他独立完成的,那需要大量的计算工作。他的唯一后援是一台名字叫“百万富翁”的计算器,那是一台原始的带有手摇曲柄的机械计算器。如果要算乘法,比方说算3342乘27;先要将转盘放在个位上,设定3342这个数字,摇动曲柄7次;再将转盘放在十位数上,设定3342这个数,摇动曲柄2次,计算方告结束。这架机械叫“百万富翁”,因为它的转盘大得足够容纳以百万计的数字。
为了体会到这篇论文所耗费的气力,我们来考虑一下《作物收成变动研究Ⅰ》中第123页的表7。如果完成一个多位数乘法需要1分钟,我估计费歇尔需要大概185个小时来完成这张表。这篇论文中有15张复杂程度相当的数表,还有4张更为复杂的图。只考虑体力劳动本身,准备这些图表至少需要耗去费歇尔8个月的时间,而且每天得工作12个小时!这还不包括其它工作所花费的时间。比方说:思考理论数学问题、整理数据、设计分析框架、修正不可避免的错误等等。
高尔顿回归思想的一般化
回顾一下高尔顿所发现的“向平均数回归”,他试图找到一个数学公式,将随机事件彼此联系在一起。费歇尔接过高尔顿“回归”(regression)这个词,建立了某个给定地块小麦收成与年份之间的一般数学关系,这个相当复杂分布的参数描述了小麦产量产业化的不同方面。要深入理解费歇尔的数学式,你得有坚实的微积分基础,得对概率分布理论有好的辨别力,还要对多维几何学有感觉,但理解他的结论并不那么难。
他将小麦产量的时间趋势分成几个部分,一个是由于土地退化导致产量稳定地整体性地下降;另一个是长期的缓慢的变化,每个阶段都要花几年时间;第三个是一组更快的移动变化,考虑的是气候在不同年份的差异。自从费歇尔开创性的尝试,时间序列的统计分析在他的思想和方法的基础上,建立了起来,现在我们有了计算机,可以用更巧妙的演算法进行大规模的计算,但基本的思想和方法仍然未变。给定一组随时间波动的数据,我们可以将之分解为不同来源导致的结果。时间序列分析用来检验:美国太平洋海岸拍激的海浪是不是印度洋风暴的起因。这些方法使研究人员能够区分地下核爆破与地震,能够精确地为病理学上的心中节律定位,能够确定环境管制对空气质量的影响,其应用范围还在继续扩大。
农场有一个名称叫“宽田硬”(Broadbalk)的地块,在分析其粮食收成时,费歇尔感到有些困惑,这块地只用了动物粪肥,所以不同年份收成的变动与人工肥料无关。当土壤得自动物粪肥的养分逐渐耗尽,地力退化的长期因素就可以得到解释,同时费歇尔还可以确定不同年份降雨类型不同所带来的影响。那么,什么是缓慢变化的原因呢?从缓慢变化的形态可以看出,在1876年产量开始下降,比从另两个因素所能预计的程度还要大,这种下降在1880年速度更快了;这种情形在1894年开始改善,持续到1901年,而后又是下降。
费歇尔发现了带有同样缓慢变化的另一种记录,不过形态是相反的,那是关于麦田里野草的。1876年后,野草蔓延得越发严重,而到了1894年突然开始消失,只是在1901年又开始茂盛起来。
后来发现,雇用小男孩到地里去拔草,在1876年以前是通告的做法。在英格兰的大地上,下午经常可以看到瘦弱的小男孩穿行于田间,不停地拔草。到了1876年,教育法(the Education Act)使得上学带有强制性,田间小男孩的大部队开始不见了。而1880年第二部教育法通过,对致使孩子辍学的家长施以罚款,田间剩下的男孩也离开了。没有了拔草的小手,那些野草就又茂盛起来了。
那么,在1894年又是什么事情发生,使得趋势逆转了呢?在罗森斯特附近有一所女子寄宿学校,新校长约翰?劳斯(John Lawes)相信,充满活力的户外活动有助于他那些年轻的被托管人的健康。他和实验站的头儿一起安排,让这些年轻姑娘在周六和傍晚出门,到地里去拔草。1901年劳斯去世后,这些小姑娘恢复久坐的习惯,多是在户内活动,野草也就又回到了“宽田埂”。
随机化控制实验
第二篇研究收成变动的论文也是发表在《农业科学期刊》上,时间是1923年。这篇论文并不处理罗森斯特过去实验所积累下来的数据,取而代之的是新实验:一组不同的人工肥料组合对不同品种马铃薯的影响。费歇尔到了罗森斯特后,实验有了明显的改善。不再将某种实验的人工肥料用于整个农场,现在他们把土地划成小的地块,每个地块进一步区分作物的行,地块中的每一行都给予不同的处理。
基本的想法是简单的,之所以简单,那是因为一经费歇尔提出后,它就简单了,但这之前却没有人想到它。任何人观察土地上的作物时,都会很明显地感到有的地块土质好于其它地块。在某些角落,作物长得又高又密,而其它角落,作物则又细又稀。这可能是由于排水方式、土壤类型的改变、未知养分的出现、多年生野草的抵制,或者一些其它未能预见的原因。如果农业科学家要测试两种人工肥料间的区别,他可以将一种施于地块的其它角。但这会将肥料的效应与土壤或者排水等的效应混淆在一起。如果试验在相同的地块不同的年份进行,又会把肥料的效应与气候变化的效应相混淆。
如果同一年里,在相同作物上进行肥料的比较,土壤的差别就会减到最低程度,但他们仍然存在,因为所处理的作物不会有绝对相同的土壤条件。如果我们使用足够多的成对比较,在某种意义上,土壤差异所造成的区别就会被平均掉。假定我们要比较两种肥料,其中一种磷肥的含量是另一种的两倍,我们将地分成小块,每一块有两行作物。我们总是将磷肥多的施于北边这行,南边的那行则施磷肥少的。做到这里,反对的声音就会出来了。如果土壤的肥力梯度(fertility gradient)由北向南,那么北边这行的土质就会比南边那行稍好一点,土壤差异的影响就不会被平均掉。
别急!我们正要做调整,在第一个地块,我们把磷肥多的施在北边,到了第二地块,它将被施在南边,就这样来回调整。我的读者中可能有的已经画出地块的草图,将施磷肥较多的行标上了记号。它会指出,如果肥力梯度从西北向东南,施以额外的磷肥的行将总是比别的行土质好。也会有人指出,如果肥力梯度从东北向西南,结论正好相反。好啦,另一个读者发问了,到底谁对了呢?肥力梯度究竟如何分布?我们的答案只能是:天晓得!肥力梯度这个概念是抽象的,当我们选择从北到南或从东到西时,肥力的真正形态可能以非常复杂的方式上下变动。
我可以想象得出来,当费歇尔提出小地块定型处理将得到更为细心的实验时,罗森斯特的科学家们之间也会有这样的讨论。我也可以想象,当讨论集中到如何确定�