对图基来说,世上没有什么事情会因为平凡而不值得去发挥原创力,也没有什么事情神圣到不容质疑。就拿最简单的记数过程来说:许多读者在计数某种东西时,或许已使用过一种记数符号。一代代的老师教我们的常用的符号就是先画4条垂直竖短线,第五条线穿过这4条线,表示5个数。不知读者看到过多少这样的场景:衣衫褴褛的犯人在监狱的墙上画下了一串串这样的计数符号。
图基说,这其实是一个愚蠢的记数方法。想想看,它多么容易出错。你可能画了三条竖线就画一个横线,也可能画了五条竖线后才画横线,这种记数法即使错了也很难发现,除非你仔细检查所画垂直线的数量。用一种容易找到误差的记数符号似乎更有意义。图基提出了十笔记数法:首先画四个点作为方型的四个角,然后再把四个点连成四条线,形成一个方型,最后在方型内画两条对角线。画完之后是十笔。
上述这此例子,快速傅立叶变换、探索性数据分析,都只是图基巨大成就的一部分。就像毕加索从立体主义到古典主义,从雕塑再到建筑,图基在20世纪下半叶,畅游于统计学的各领域,从时间序列(time series)、线性模型(linear models),到费歇尔的一些被人遗忘的研究工作的推广,再进一步到稳健估计(robust estimation)及探索性数据分析。他从研究深奥的数学理论起家,又因思考和解决实际问题脱颖而出,最后落脚在研究无结构的数据估计上。在他研究的所到之处,统计变得与以往大不相同。就在2000年夏天,也就是在他去世的当天,他还和朋友、同事们在一起,讨论问题,提出自己的新观点,并对以往的旧观点展开质疑。
第23章 处理有瑕疵的数据
证明统计方法用途的数学定理通常都假设:在科学实验或观察中的测量值都是同样有效的。如果分析者在进行分析时,只选择数据中他认为看起来是正确的数据来分析,那么统计分析结果可能就会产生非常严重的错误。当然,这正是以前科学家们通常的做法。早在20世纪80年代初期,S?施蒂格勒阅读了18世纪和19世纪许多伟大科学家们的笔记本,比如,因为确定了光速而获得1907年诺贝尔奖的艾伯特?迈克逊(Albert Michelson)。施蒂格勒发现,所有这些科学家在开始他们的计算前已经剔除了一些数据,17世纪初就发现行星绕太阳以椭圆轨道运行的科学家约翰尼斯?开普勒(Johannes Kepler),他在研究古希腊天文学家的记录时,发现有一些观测位置记录不符合他正在计算的椭圆轨道,于是他就忽略了这些缺损数据(faulty value)
但是现在,值得尊敬的科学家们不再抛弃那些看起来是错误的数据,统计革命在科学界的广泛影响,教会了现在的实验科学家们不要剔除任何数据。统计学的数学定理要求同等对待所有的数据。但如果有些数据的确错了,我们该怎么办?1972年的一天,一位药理学家带着这样一个问题来到了我的办公室。他在小白鼠身上研究溃疡的预防,正在比较两种不同的处理方法,他确信这会产生截然不同的结果,而且他的数据看起来也显示同样的结论,但是当他依据奈曼-皮尔逊的理论进行正式的假设检验时,比较结果并不显著。他确信问题出在两只小白鼠的观测数据上,这两只小白鼠使用了不足量药剂,尔后都没有发生溃疡,使得它们的结果看起来要远远好于另外一种处理方法的实验结果——而那本应该是最好的。我们在第16章已经看到了非参数方法是如何发展起来去解决这一类问题的。这两个离散数据刚好处于错误的一边,而且数量上还是两项,所以即使用非参数检验结果也不显著。
如果这种事情发生在一百年前,这个药理学家就可以剔除这两个错误的数据,继续进行他的计算,不会有人提出异议。但是,他已经学习了现代统计方法,他知道他不能够这样做。很幸运,当时我手头正好有一本刚读过的新书,书名是《位置的稳健估计:调查与与改进》(Robust Estimates of Location: Survey and Advances),它记述了一项重大的主要应用计算机进行的研究成果,即约翰?图基进行的我们称之为“普林斯顿稳健性研究”(Princeton Robustness Study),在这本书中我们可以找到这位药理学家问题的答案。
“稳健(robust)一词对很多美国人来说,听起来很奇怪。许多统计学术语都来自于英国的统计学家,并且都反映了他们的语言习惯。例如,在英国,把数字微小的随机波动称为“误差”(error)是很普遍的 ,有时候,数据不仅是明显错误的,而且由这引动错误造成的结果的原因也是可能看出来的,例如一块田里的农作物绝产。这样的数据被费歇尔称为“谬误”(blunders)。
是乔治?博克斯(Gee Box)——费歇尔的女婿,在他的英国语言应用习惯的基础上发明了“稳健”(robust)这个词。博克斯有很得的口音,这主要是因为他最初成长在泰晤士河附近。他的祖父当时是一个五金器具批发商,生意很不错,供博克斯的伯父们读完了大学,其中有一位还成了神学教授。当博克斯的父亲成年时,祖父的生意已经失败,他父亲没有受过高等教育,只好去作一个商店主的助理,靠薪水维持全家人的生活。博克斯上了中学,知道他没有钱上大学,所以他开始在一个技校里学习化学。这时,第二次世界大战爆发,博克斯应征入伍。
因为有学习化学的背景,他被分配去化学防御实验部门工作。在那里,许多顶尖的英国药理学家和生物学家正致力于不同毒气解毒方法的研究。约翰?加德姆爵士(Sir John Gaddum)也在这些科学家中,他在20世纪20年代末将统计革命引入药理学,并且为药理学的基本概念赋予了一个牢固的数学基础。
博克斯成为一个统计学家
博克斯的上司是一个陆军上校,他对收集来的大量数据感到束手无策,这些数据记录的是不同剂量的不同毒气在老鼠和小白鼠身上的不同反应。他搞不清楚这些数据说明了什么,就像博克斯在1986年叙述的那样:
有一天,我对长官说:“你知道,我们真的需要有个统计学家来帮我们看看这些数据,因为它们变化太多了。”他说:“是呀,我知道。但是我们找不到一个统计学家,因为它们都很忙。你对统计知道些什么?”我说:“噢,我对此一无所知,但是我曾经读过一本书叫《研究工作者的统计方法》,是一个叫费歇尔的人写的,我没看懂,但是我想我明白了他正在做什么。”于是长官说:“那好,如果你读了这本书,最好由你来做这件事吧。”
于是,博克斯与军队的教育机构联络,要求去进修统计方法的课程。但是当时没有这样的课程,统计分析方法还同有成为大学的正规课程,但是他们送给博克斯一份阅读书目,书目无外乎最新的图书出版信息,其中列有费歇尔写的两本书,一本关于教育研究的统计方法,另外一本关于医学统计学,此外,还有一本书是谈林业和牧场管理的。
博克斯对费歇尔的实验设计非常感兴趣。他在那本关于林业管理的书中发现了几个特别的设计,并将这些设计改造,使之适合于进行动物实验(当时科克伦和考克斯合著的《实验设计》一书尚未出版,书中有许多细心描述的实验设计)。通常由于书中所列的实验设计不是很适用,所以博克斯就参照费歇尔的一般性的描述,结合他的发现,考虑了自己的实验设计。其中有一个最让人感到奇怪的实验是:让志愿者两臂各露一小块皮肤,暴露在不同的毒气下,然后采用不同的治疗方法。每个人的两臂是相关的,因此在分析时必须考虑这个因素,必须做一些处理,但是在这本关于林业的书中没有这方面的论述,在费歇尔的书中也没有类似的论述。所以,博克斯这个只在技校里不完整地进修过一些化学课程的,只好从基本的数学原理开始,创造出适用的实验设计。
博克斯实验设计的实力在一个否定结论的实验中表现出来。一个美国眼科专家带着他认为对刘易士毒气(lewisite)治疗效果极好的解毒剂来到了博克斯的实验室。刘易士毒气毒性极强,一小滴就可导致失明。他在美国已经在兔子身上做了很多次试验,他的厚厚的论文也证明了他的药剂效果极好。当然,他根本不知道费歇尔的实验设计,事实上,在他的实验中漏洞百出,实验设计中有许多与结果无关的因素没有分离出来,这样的设计是不可能得到真实的结构的。兔子有两只眼睛,于是博克斯利用他的新设计针对这个事实提出了一个非常简单的实验,这个实验很快显示这种解毒剂根本是无效的。
他们准备写一份描述这些结论的报告,作者是一个英国军官,博克斯负责写统计附录,即解释这个结论是怎样得出的。一个负责审核报告的军官坚持删除博克斯写的那部分,他认为这部分太复杂了,没有人能看懂(事实上是这位负责审查的人看不懂)。但是约翰?加德姆爵士已经阅读了初稿,他跑去恭贺博克斯在附录部分所做的工作,得知这部分将在最终报告中删除,于是他拉着博克斯怒气冲冲地闯进了组合行军棚屋,当时审查报告委员们正在开会,用博克斯的话说:“我感到很尴尬,这个非常有名的大人物为在场的所有国家公职人员读了一段我写的附录,然后说:‘把这些东西给我放回去’。”他们很快就照办了。
战争结束后,博克斯认为去学习统计学是非常有价值的,他已经读了费歇尔的书,知道费歇尔在伦敦大学的大学学院任教,于是他来到了这所大学,但是他不知道费歇尔已经在1943年离开了伦敦大学到剑桥大学任遗传系主任了。会见博克斯的是E?皮尔逊,费歇尔曾对他跟奈曼合作进行的假设检验进行过刻薄的批评。会谈时,博克斯热情洋溢地描述他对费歇尔理论的认识,介绍他在实验设计中的心得,皮尔逊静静地听着,最后说:“好吧,总之你可以来我校就读,但是我想你将来会知道,在统计界里除了费歇尔外,还有其他一个或两个人的存在。”
博克斯留在大学学院里学习,取得了学士学位,接着又继续攻读硕士学位。他发表了许多关于实验设计的文章,被认为可以当作博士论文,于是,他直接得到了博士学位。当时,帝国化学工业公司(Imperial Chemicals Industry(ICI))是英国最主要的发明新化学药品的公司,博克斯应邀参加了该公司的数学服务小组,他从1948年至1956年一直在ICI公司工作,其间他写了一系列的论文(通常是合著),这些论文扩展了实验设计方法,检验了一些在生产过程中为提高效益进一步调整产出的方法,同时,也是他后来对柯尔莫哥洛夫随机理论进行应用研究的起点。
博克斯在美国
博克斯到了普林斯顿大学任统计方法研究小组的负责人,接着到威斯康星大学开设了统计学系。他已经是所有重要统计组织的成员,因为他卓越的成就得到了好几项声望很高的奖励。即使在退休后,他仍然致力于学术研究和学术组织的管理工作。他的研究成果覆盖了很多统计研究领域,不但有理论研究还有应用研究。
博克斯在帝国化学工业公司工作时认识了费歇尔,但是私交并不深。当他在普林斯顿大学负责统计方法研究小组的工作时,费歇尔的一个女儿琼(Joan)得到了一个去美国的机会,她的朋友为她在普林斯顿大学找到了一个秘书的工作,博克斯与她相遇,后来两人结了婚。琼在1978年时出版了一本权威性传记,记录了她父亲和她丈夫的工作。
博克斯还有一个对统计的贡献就是“稳健”(robust)一词。他考虑到很多统计方法都是依赖于数学定理的,而这些数学定理对数据分布特性的假设可能不正确,如果数学定理的条件不成立,能找到可用的统计方法吗?博克斯提议称这些方法为“稳健方法”。他做了一些初步的数学研究,发现“稳健性”(robustness)的含义太不明确,但他反对对此概念赋予更加明确的含义,因为他认为一个概括性的模糊思想会对方法的选择更加有利。然而,这种思想本身还是得到了发展,用一个术语定义假设检验的稳健性就是:误差概率(the probability of error)。斯坦福大学的统计学教授布拉德利?埃弗龙(Bradley Efron)把费歇尔的一个几何学概念作了延伸,他在1968年证明了“学生”t-检验具有稳健性,他还用E?J?G?皮特曼(E。 J。 G。 Pitman)的方法证明了大多数的非参数检验也是同样稳健的。
20世纪60年代末,普林斯顿大学的图基和他的研究小组成员以及他的学生们,研究如何处理那些显而易见是错误的测量值。他们的成果就是1972年发表的“普林斯顿稳健性研究”。这项研究的基本观点是有瑕疵的分布(contaminated distribution)(有的辞典上将之翻译为污染分布——译者注)。通常情况下,我们假设取得的测量值绝大部分是来自于一个概率分布,而且这个概率分布的参数是我们要估计的,但是,测量值当中总会有极少的一些测量从上到下为自于另外一个分布,所以我们说这些测量值是有瑕疵的。
在第二次世界大战期间,有一个典型的关于瑕疵分布的例子。美国海军改进了一种新型的光学测距仪,要求使用者用一个三维立体镜去看目标的影像,用一个大三角“罩”在目标上,为了确定这个仪器的统计误差,让几百名水手来试用,测量一个已知距离的目标。在试用前,根据随机数表重新确定了目标的位置,这样后来的水手就不会受先前已知位置的影响。
设计这个研究的工程师不知道,有20%的人看东西不是立体的。因为他们是我们所说的弱视(lazy eye),这样有五分之一的数据是完全错误的。单从手头研究得到的数据看,不可能知道哪些数据是来自于弱视者的,因此分不出哪些数据来自于有瑕疵的分布。
普林斯顿的研究是在计算机上实施蒙特卡罗法(Monte Carlo )模