奈曼由此得出两个结论。第一个结论是,检验的效力是用来测量一个检验方法好坏的指标,两种检验方法中效力较强的方法就是较好的方法;第二个结论是,备择假设不能太多。统计分析师不能这样来表述,某一组数据来自于一个正态分布(零假设),或者它来自于任何其它可能的分布。这种备择假设集涵盖的范围太广了,没有哪种检验方法会有那么强的效力能处理所有可能的备择假设。
在1956年,芝加哥大学的L?J?萨维奇与拉杰?拉克?巴哈杜尔(Raj Raghu Bahadur)证明,对于一个零假设未通过的情形,并不一定要求有很多的备择假设。他们构建了一个相对较小的备择假设集,除此之外的所有检验的效力均为零。在20世纪50年代,奈曼就发展出了有限制的假设检验的想法,其中的备择假设集被定义得非常狭窄。他证明得出了这样的结论:这种检验方法比那些处理较多备择假设的检验方法效力更强。
在很多情况下,假设检验的目的是用来推翻零假设的,而这个零假设就好比我们所要攻击的稻草人。举例来说,当我们比较两种药的临床效果时,待检验的零假设是两种药的效果一样。但是,如果真是如此,研究工作就永远不必进行了。所以,“两种处理的效果相同”这一零假设,就是我们所要攻击的稻草人,应该被我们研究的结果来推翻。因此,根据奈曼的思想,该项研究的设计必须使最终数据有最大的检验效力,这样才能推倒这个稻草人,即表明这两种药的效果有多大的不同。
什么是概率?
遗憾的是,为了对具有内部一致性的假设检验设计出一种数学方法,奈曼必须处理一个已被费歇尔扫到地毯下的问题。这是一直困扰假设检验的一个问题,尽管奈曼的纯数学解非常简洁巧妙。这也是统计方法应用到一般的科学领域中通常会碰到的问题。从更一般的意义讲,这个问题可以这样来概括:在现实生活中,概率的意义是什么?
统计学的数学公式可用来计算概率。而这些计算出来的概率可使我们应用统计方法解决科学中的问题。就所用到的数学而言,概率的定义很明确。但这种抽象的概念怎样和现实相联系呢?当科学家试图决定什么为真、什么不为真时,他该如何解释统计分析的概率陈述呢?在本书的最后一章,我将讨论这个一般性的问题,并分析长久以来设法解答这些问题所做的努力。但现在,我们将分析促使奈曼找到他的答案的特殊情况。
前面我们谈过,费歇尔利用显著性检验产生了一个他称为P值的数字。这是一个计算出来的概率,是在零假设为真假定下,与观测数据有关联的一个概率。例如,假定我们要检验一种新药,对做过乳房切除手术的妇女来说,这种药可以防止乳腺癌的复发。我们把这种药的效果与一种安慰剂作比较。此时的零假设(那个稻草人)就是,该新药不比安慰剂好。现在,假定5年之后,用安慰剂的妇女有一半乳腺癌复发,但用新药的完全没有复发,这样能证明新药“有效”吗?答案当然得看这个50%代表多少病人。
如果在这项研究中,两组各仅有4名病人,也就是总共有8名病人,而其中2人在5年后复发。假定我们任选一个8人团体,把其中两人做上标记,接着把人随机分成两组,每组4人,那么做标记的两个被分在同一组的概率大约是0。30。因此,如果每组只有4名妇女,“所有复发的妇女都落在安慰剂组”是不显著的。如果该项研究中每一组包含500名妇女,且乳腺癌复发的所有250名妇女都落在安慰剂姐,这是极度不可能的,除非新药真的有效。如果新药并不比安慰剂有效,这250名妇女都落在同一组的概率就是P值,计算出来的结果将小于0。0001。
P值是一个概率,它就是这样被计算出来的。既然P值被用来表明一个假设(P值就是在该假设下计算出来的)为假的概率,那它的实际意义又是什么呢?答案是,P值是在极可能为假的条件下,与观测值相关联的一个理论概率。P值与现实没什么联系,它是一种对似是而非问题的间接测量。它不是我们错误理解的新药有效的概率,它也不是出现任何一种类型误差的概率。但是,为了决定哪一种检验方法比别的检验方法更好,奈曼必须想出一种办法把假设检验放进一个架构里,使得与根据检验所做出的决策相联系的概率能够计算出来的。因此,他需要将假设检验的P值与现实生活联系起来。
概率的频数定义
1872年,英国哲学家约翰?维恩(John Venn)提出了一个数学概率的公式。这个公式使得概率在现实生活中有了含义。他把一个重要的概率定理转了一个方向,这个定理就是大数定律(law of large numbers)。大数定律指出,如果某事件有给定的概率(比如掷一个骰子,得到六点这一事件的概率是六分之一),而且如果我们重复地进行相同的试验时,该事件发生的次数的比率就会越来越接近这个概率值。
维恩指出,与一个给定事件相联系的概率,是该事件从长期来看所发生的次数的比率。按照维恩的意见,概率的数学理论并没有隐含大数定律,反而是大数定律隐含了概率的思想。这就是以频数为基础对概率的定义。1921年,约翰?梅纳德?凯恩斯(John Maynard Keynes )推翻了这种定义方式,认为它不是一种有用的或有意义的解释,并指出这种定义具有根本性的矛盾,因而无法在许多要求计算概率的情况不应用概率的频数定义。
在用正规的数学方法来构造假设检验时,奈曼又重新回到了维恩的概率的频数定义上。奈曼利用这个定义来证明他在假设检验中对P值解释的合理性。在奈曼-皮尔逊的公式中,科学家设定一个固定的值,比如0。05,之后,当显著性检验的P值小于或等于0。05时,就拒绝零假设。按照这种理解,从长期来看,该科学家会正好有5%的机会拒绝一个正确的零假设。假设检验当前就是这样来讲授的,奈曼所采用的频数方法被得到强调。我们太容易把奈曼-皮尔逊的假设检验公式看作是概率的频数方法的内容,因而太容易忽略奈曼所提的观点中更重要的见解,即为了检验零假设这个“稻草人”,必须要有一组定义明确的备择假设。
费歇尔误解了奈曼的见解。他把注意力集中到了显著性水平的定义上,但却忽略了检验效力和需要定义一组备择假设这些重要的思想。在批评奈曼时费歇尔写到:
奈曼认为他自己修正并改善了我早期所做的关于显著性检验的工作,结果“改进了自然知识”,不过实际上他只是用技术性与商业性的形式,也就是大家所熟知的接收程序,重新解释了这些检验方法罢了。现在,在当代世界里,这种接收程序变得十分重要。例如,当英国海军总部接到某工程公司的大批材料时,我认为要安排很仔细的检查与检验,以降低残次品被接收的频率,……不过在我看来,这种管理运作与透过物理或生物实验的科学发现工作相比,它们之间的逻辑上有很大的差别,所以拿这两者做类比是没有多大帮助的,而把它们当成是同一回事,更是一种决定性的误导。
尽管存在对奈曼基本观点的这些扭曲,假设检验还是成为科学研究中应用得最多的统计工具。奈曼提出的精巧数学构思,在科学的很多领域中都占有一席之地,变成了一种固定的观念。大部分的科学期刊都要求论文的作者在做数据分析时要采用假设检验方法,甚至连科学期刊之外的领域也开始这么做。美国、加拿大与欧洲的药物管理机构,纷纷把假设检验方法的使用列为对药品检查的强制性要求,就连法庭允许原告用这种方法证明自己受到就业歧视。假设检验已经渗透到统计学的所有分支学科中。
奈曼-皮尔逊的理论攀升到统计学的巅峰地位,一路上也不是没有挑战的。费歇尔从一开始就攻击它,而且在他有生之年一直在攻击这个理论。1955年,费歇尔在《皇家统计学会期刊》上发表一篇文章,题目是“统计方法与科学归纳”,而在他的最后一本书《统计方法与科学推论》(Statistical Methods and Scientific Inference)里,更进一步详述了他的看法。在20世纪60年代晚期,不久之后就出任《生物统计》期刊主编的大卫?考克斯(David Cox),发表了一篇分析清晰的文章,分析了假设检验在科学中的实际用途,同时也证明了奈曼的关于频数的解释不符合实际状况。在20世纪80年代,W?爱德华兹?戴明(W。 Edwards Deming)攻击了假设检验的整个思想,认为假设检验的整个思想都是荒谬的(第24章还会再提到戴明对统计学的影响)。年复一年,在统计学文献中一直有相关文章发表,指出在教科书中已成定格的奈曼-皮尔逊理论中发现了新的毛病。
不过,在奈曼-皮尔逊假设检验理论的神圣化过程中,奈曼本人并没有参与。早在1935年,他在《法国数学学会会刊》《bulletin de la Société Mathématique de France》上就用法文发表过一篇文章,对是否能找到最佳的假设检验方法提出严厉的质疑。在他后来的文章里,奈曼很少直接使用假设检验方法,他的统计方法通常是由理论原则导出概率分布,然后再由数据来估计参数。
其他一些人则捡取藏在奈曼-皮尔逊理论背后的观点来进一步发展。在第二次世界大战期间,亚伯拉罕?沃尔德扩展了奈曼利用维恩关于频数的定义,发展成了一个叫统计决策理论(statistical decision theory)的领域。埃里希?莱曼(Erich Lehmann)给出了用来判断一个好的假设检验可供选择的标准,后来在1959年,他还写了一本有关假设检验问题的权威性的教科书,这本书至今仍然是该领域对奈曼-皮尔逊假设检验理论描述得最完整的一部著作。
就在希特勒入侵波兰,将邪恶之幕笼罩欧洲大陆之前,奈曼就到了美国,并在加州大学的伯克利分校开始创建统计系。在那里他一直工作到1981年去世,这期间,他把该系创建成全世界最重要的学术性统计学系之一。他把一些统计学界赫赫有名的人物引入该系,同时也提拔了一些默默无闻的人,这些人正致力取得卓越的成就。例如,大卫?布莱克韦尔(David Blackwell)原来只是只身孤单地在霍华德大学(Howard University)工作,没有数理统计同行与他来往。由于他的种族原因,他一直没能在“白人”学校谋得一职,尽管他很有潜能。奈曼把他请到了伯克利。此外,奈曼还招了一位出身法国农民家庭的研究生吕西安?勒卡姆(Lucien Lecam),他后来成为世界领先的概率学家。
奈曼总是非常和善地对待他的学生和同事。他们常常津津乐道的是系里每天下午茶歇的欢乐时光,这是由奈曼主持的他与职员亲近接触的一个重要场合。他总是亲切地鼓励学生和同事谈谈自己最新的研究成果,同时很和蔼地提出他自己的思路和见解,给出评论,加入大家的讨论。他常常在下午茶歇即将结束时举起茶杯说“为尊敬的女士们!”他特别关照女士,鼓励她们在学术生涯上不断进步。在他的女弟子当中,伊丽莎白?斯科特(Elizabeth Scott)博士是较为杰出的,她与奈曼一起做研究,共同发表论文,范围从天文学到致癌物研究,甚至动物学。还有伊夫琳?菲克斯(Evelyn Fix)博士,她在流行病学的研究上有很重要的贡献。
直到费歇尔于1962年去世,奈曼一直受到这位天才的尖刻批评。奈曼每做一件事都会遭到费歇尔的批评。如果奈曼成功地证明出了费歇尔某项非常难解的叙述,费歇尔就说奈曼误解了他写的东西;要是奈曼扩充了费歇尔的某个观点,费歇尔就批评奈曼说他把好端端的理论用错了地方。对比,不论是付诸笔端,还是在私人场合,奈曼从不回应(如果我们相信奈曼同事的说法)。
在奈曼去世前的一次访谈中,奈曼说了一件发生在20世纪50年代的往事。当时他准备在一次国际研讨会上公开发开一篇用法语写的论文。当他步上讲台时,意识到费歇尔也坐在听众席上。在演讲论文时,他知道一场激辩难免,于是开始武装自己,他预计费歇尔会抓住论文里某个无关紧要的小地方,将论文和他本人攻击得体无完肤。奈曼讲完之后,等待听众提问,结果只有几个问题。费歇尔相当平和,一言未发。后来奈曼才知道,费歇尔不会讲法语。
第12章 置信诡计
当20世纪80年代出现了艾滋病(AIDS)这种传染病时,有若干问题需要回答。一旦传染源HIV(human immunodeficiency virus,即人体免疫缺损病毒)确定了,卫生官员需要知道有多少人受到感染,以便安排需要的资源来应付这种传染病。幸运的是,在此之前的20至30年所开发出来的流行病学 数学模型,在这里可派上用场。
从传染病的现代科学观点来看,某些个体病人接触到传染源,其中有些人会被传染,而在经过一段所谓的“潜伏期”之后,那些被传染的人会显现该疾病的症状。一旦被传染,这个人就会成为其他还没有被传染人的潜在传染源。我们没有办法预测谁会与传染源接触,谁会被传染,或谁会传染他人。我们所能做的,只是处理相关的概率分布,并估计这些分布的参数。
参数之一是平均潜伏期,也就是从被传染到症状产生的平均时间。就艾滋病这种传染病来说,平均潜伏期对卫生官员是特别重要的参数。他们没有办法知道究竟有多少人被传染,又有多少人最终会得上这种疾病,但如果能知道平均潜伏期,他们就能根据已经患有这种疾病的人数,估计出受感染的人数。不仅如此,由于艾滋病传染模式的不寻常特征,卫生官员拥有一组患者,并知道这组患者感染的时间和他们的发病时间。有一个小的血友病患者群体由于使用了被污染的血液制剂而感染上HIV,他们提供的数据可以用来估计平均潜伏期这一参数。
这个估计值的准确性如何?流行病学家可以说,他们使用的是费歇尔意义上的最佳估计量。因为他们所得