二个问题是,为了让事件(肺癌)发生得足够多,允许作有意义的分析,研究持续的时间必须很长。解决这两个问题,都需要跟踪大量的人群。大量的研究对象保证了可以将研究结果适用于更为广泛的人群。如果短期内事件的发生率很低,但只要跟踪的人数足够多,短期内同样能得到足够多的事件用以分析。
希尔和多尔第二个研究之所以选择医生有两个原因:一是医生对自己吸烟习惯的回忆比较可靠;二是他们近观过专业的医学训练,因此这群人中发生的所有肺癌病例肯定都会被记录下来。但是,我们能将针对那些接受过良好教育的专业医生得到的研究结论,推广到学历不及高中的码头工人上吗?哈蒙德和霍恩以近200 000的男性为研究对象,希望样本更具有代表性——而这可能会使所获精确信息更少。说到这里,读者可能会想起,某些人批评K?皮尔逊的样本数据,理由是说那是一种便利样本。这些不也是便利样本吗?
为了回应这种反对意见,H?F?多恩(H。 F。 Dorn)在1958年研究了三个大城市的死亡证明书,然后对死者家属进行访问调查。这一研究选择了所有的死亡者,所以不能说是便利样本。结果再次压倒性地证实,吸烟和肺癌之间存在着关联。然而,还是可能有人提出争议,会说对死者家属的访问调查存在不足。因为直到进行这项研究的时候,大家普遍都知道了肺癌和吸烟之间的联系,这样的话,与因其它病死亡者的家属相比,那些因肺癌死亡者的家属可能会对死者生前是否吸烟记得更为清楚。
这也正是大多数流行病学研究的情形,任何一项研究都可能存在着某些不足之处。对于任意一项研究而言,批评者总可以假想出导致结论偏差的各种可能情形。科恩菲尔德和他的合作者们搜集了1958年前针对不同国家、不同总体所作的30项流行病学研究。正如他们所指出的,这么多项针对各种总体开展的研究压倒性地一致,都得到了相同的结论,因而具有较高的可信度。他们对各种异议一项一项地进行讨论,也考察也伯克森的反对意见,表明了该如何用其中的某些研究来回应这些批评。奈曼曾经指出,若抽烟者活得比不抽烟者长而肺癌又是一种老年病的话,最初的那些追溯性研究可能就存在偏差。为此,科恩菲尔德等人用由这些研究中的病人所生成的数据表明,对这些病人的这种描述并不准确。
他们从两个方面讨论了便利样本是否具有代表性的问题。一方面,他们表明了所涉及的病人总体范围,增加了结论对不同总体都成立的可能性。另一方面,他们还指出,这种因果关系可能是源自生物学的基本原理,与病人不同的社会经济状况和种族背景无关,并且回顾了毒物学的研究,证实了吸烟对实验室动物和组织培养存在着致癌效应
科恩菲尔德等人的这篇论文是流行病学研究中有关如何求证病理原因的经典例子。尽管任一单项研究都存在着一些不足,但是随着证据越积越多,一项一项的研究使得同 不念旧恶结论越来越有说服力。
吸烟与致癌 VS。 橙剂
与上述现象形成对照的是,越战的老兵们认为战争中曾用的橙剂(Agent Orange,一种除草剂——译者注)对他们的健康造成了影响,使他们在后来的生活中备受折磨。有关的研究认定导致他们身体损害的原因,正是这种除草剂(herbicide)中所含的污染物,几乎所有这类研究都只是针对这一小部分以不同方式接触到了这种除草剂的人开展的。但是针对其它人群开展的研究却并不支持上述发现。在20世纪70年代,意大利北部的一个化工厂发生的一次意外事故,致使许多人接触到了剂量更大的该种污染物,但并没有产生长期影响。针对新西兰草场工人的研究却表明,那些接触了除草剂的人患一种特殊生育缺陷的可能性增大,但是这些工人大多数都是毛利人,毛利人从基因上说就容易出现这种特殊的生育缺陷。
有关吸烟与橙剂研究的另一个不同之处在于,对于吸烟,人们认为会引起的是一种很明确的病(即肺部表层癌),而由橙剂引起的问题很多,包括神经系统和生殖系统的一些病症。这种情况与毒物学中的一般发现相悖,在毒物学上,一般认为特定的药剂会导致特定类型的病害。对于橙剂的研究,没有得到任何有关剂量反应的迹象,当然,也没有充足的数据能判断这些人到底接触到了多大的剂量。总的来看,这一研究的结果含混不清,就是伯克森、奈曼和费歇尔等人的反对意见也无人问津。
通过对流行病学研究的分析,根据罗素的高度确切性要求和“实质蕴涵”的思想,我们已经非常深入了。现在因果关系从对人群总体许多有缺陷的调查推出,这种关系仅仅是统计意义上的,分布参数的变化可能源于某些特定的原因。但是,一些更为明智的研究者,可以通过综合大量的存在一些不足之处的研究,去发现一些共同的内在线索。
论文发表上的偏差
会不会是这些研究都经过挑选呢?观察者所看到的文献会不会只是从实际所做研究中精心挑选出来的一部分呢?又会不会是那些下面的研究发表了而负面的研究就没有发表呢?别忘了,并非所有的研究都能够发表。有一些论文会因研究者没有能力或不愿意而未能做完,有一些论文会因为不符合杂志的规范而被编辑拒绝。特别是对所讨论的问题存在着争议时,编辑们常常倾向于发表那些容易为科学界接受的论文,而拒绝一些观点不易为科学界接受的论文。
这正是费歇尔提出批评的问题之一。他声称希尔和多尔最初的研究被改造过了,他多年力图让作者公布支持其结论的详细数据。而他们仅仅发表了论文的概要,但费歇尔认为这些概要掩盖了数据中实际所存在的不一致性。他指出,在希尔和多尔的第一个研究中,作者问吸烟者吸烟时是否吸入,这样将数据分为“吸入者”和“不吸入者”两类时,不吸入者得肺癌的多,而吸入者得肺癌的反而少些,希尔和多尔声称这一结果可能是因为部分被调查者没有弄清楚问题的含义。费歇尔对此很不以为然,并问他们为什么不公开真实的研究结论,让人们知道,虽然吸烟对你是有害的,但是如果你非得吸,与其不吸进去,还不如吸进去呢。
让费歇尔反感的是,希尔和多尔针对医生开展跟踪研究时,竟然将这个问题扔到了一边。那么,会不会还有其它什么问题也是精心挑选的呢?费歇尔很想知道。然而,更令他感到震惊的是,政府竟然不惜以大量的权力和金钱来将恐惧植入民众心理当中,他认为这种做法无异于纳粹利用传媒来操控民意。
费歇尔的答案
费歇尔也受到了罗素因果关系论的影响,他认识到实质蕴涵还并不足以描述大多数的科学结论,并写文章深入地讨论归纳推理的属性问题。他认为,如果很好地遵循了实验设计的有关原则,那么就有可能在某些特定研究的基础上得出关于生命的一般性结论。他还指出,实验设计中按随机原则将治疗方法分配给受实验乾,这种方法为归纳推论(inductive inference)提供了坚实的逻辑与数理基础。
那时,流行病学者都采用费歇尔所提出的实验设计分析工具,如他的统计估计与显著性检验方法。他们将这些工具用于便利样本的分析,在这类样本中实验处理的分配并非由研究之外的某种随机机制来决定,而是依据这些研究本身的复杂部分来确定。他的思索是,某些人吸烟而其他人却不吸,假定这是某种遗传基因的缘故,并且进一步假定,正是这种相同的基因结构导致了肺癌的产生。众所周知,多数的肺癌患者都具有家族性的特征。他因此提出,吸烟与肺癌之所以存在联系,大概是因为二者都由同一种因素所引起,即相同的基因结构。为了证明自己的推测,他收集了许多双胞胎的数据,结果表明,这些双胞胎要么两人都吸烟,要么都不吸,有着很强的家族性倾向。于是,他向其他人提出了挑战,要他们证明肺癌并非受相似的遗传基因所影响。
这场论战,一方是脾气火爆的天才费歇尔,他将统计分布的整个理论构建在了一个坚实的数学基础之上,正在作最后的一场战斗。而论战的另外一方是J?科恩菲尔德,他所受的正规教育只不过是一个历史学的学士,有关统计学的知识完全靠自学而来,忙于建立新的重要统计理论而没顾得上去拿更高的学位。费歇尔指出,不通过随机化实验,根本无法证明任何东西。科恩菲尔德却认为,有些现象本身就无法设计那种随机化的实验,但是承受着相关证据的累积也能说明一些问题。现在,两人都已经去世了,但他们学术思想的继承者尚在。在法庭上,当原告们举证自己受到了不公平的待遇时,这种争论便会时时现出;在分辨人类活动对生物圈的不利影响时,这种争论同样会扮演重要的角色;无论什么时候,一旦碰到医学中事关生死的重大问题,这种争论也必定会浮现出来。因果关系并不是那么简单就能够证明出来的!
第19章 如果您需要最佳人选……
1913年夏末,乔治?W?斯内德克(Gee W。 Snedecor)从肯塔基大学(University of Kentucky)获得了数学博士学位。他听说爱阿华(University of Iowa)有个数学教师的空缺,就收拾简单行李,搭车前往应征。不幸的是,他对爱阿华州所处位置一无所知,结果到了爱阿华州立学院(Iowa State College)的所在地——埃姆斯(Ames),而非爱阿华大学的所在地——爱阿华市。爱阿华州立学院的人告诉他,该校没有招聘数学老师,但该校已录取的有些学生数学背景不太好,问他是否愿意来教代数。6年以后,他说服学校的人,应该让他设立一门关于统计方法新思想的课程。就这样,当费歇尔农业试验的第一篇论文问世时,斯内德克正在一所农业学校,并努力跟踪这些统计思想。
虽然斯内德克学的是数学,没有学过概率论,但他在埃姆斯研究这些新发展,并建立一个统计实验室。后来,他设立了美国的第一个统计系。他研究了费歇尔的论文,接着又阅读了其他人的著作,如皮尔逊、戈塞特(“学生”)、F?Y?埃奇沃思(F。 Y。 Edgeworth)、耶茨、冯?米泽斯等。斯内德克在原创研究方面贡献虽然不多,却是个伟大的编者。20世纪30年代,他编写了一本教科书,书名就是《统计方法》(Statistical Methods)。起初,只是油印版,1940年正式出版,立刻成为统计界的优秀教科书。他改进了费歇尔的《研究工作者的统计方法》,加进了一些基本的数学推导过程,并把类似的统计思想放在一起,还加了一大堆计算表,使读者不费什么力气就可以算出P值和置信区间。20世纪70年代,有一篇评论文章指出,在所有领域的科学论文中,斯内德克的《统计方法》被引用的次数最多。
斯内德克又是一名很有效率的管理人员。他常邀请统计研究领域中的重量级人物暑期访问爱阿华州立学院。20世纪30年代的多数夏季,费歇尔总会过来住上几个星期,讲讲学或担任顾问。从此,埃姆斯的统计实验室与统计系,成为世界上最重要的统计学研究中心之一。第二次世界大战前到此访问的教授们都是该领域的杰出人物。
格特鲁德?考克斯(Gertrude Cox,1900-1978)就是在这一时期进入了爱阿华州立学院。她原来梦想当一名传教士,到偏远的国度拯救灵魂。高中毕业后的大约7年时间内,她都在卫理公会教堂(Methodist Chruch)做社会服务工作。为了达到当传教士的心愿,必须完成大学学业。在大学学习期间,斯内德克使她相信,统计学比传教更有趣。因此,毕业以后,她继续跟随斯内德克,在统计实验室做研究。1931年,她获得爱阿华州立学院颁发的第一个统计学硕士学位,斯内德克又聘用她在统计系任教。此时,她开始对费歇尔的实验设计理论特别感兴趣,因此,在学校里首次开设了实验设计方面的课程。后来,斯内德克替她在加利福尼亚大学(University of California)找到了一个攻读心理学博士的机会,她又在那里学了两年多的时间,获得博士学位之后,回到埃姆斯,斯内德克让她负责统计实验室的工作。
与此同时,著名的统计学家们仍然不断地访问爱阿华州的埃姆斯。威廉?科克伦(William Cochran)曾经停留过一段时间,教了一段时间的书。他和考克斯一起讲授实验设计(这时侯,已经开设了好几门这方面的课程)。1950年,两人合写了一本教科书《实验设计》(Experimental Designs),这本教科书与斯内德克的《统计方法》一样,不但向读者讲述了统计方法,还介绍了该方法的坚实数学基础。书上有一组很有用的表,可以让实验人员针对具体情况修正实验设计、分析实验结果。《科学论文引用索引》(Science Citation Index)每年都会公布各个科学期刊上的论文引用书单,该索引用小号字体印刷,分为5列,《实验设计》每年都上榜,至少占上整整一列。
女性对统计学的贡献
读者或许已经注意到,除了弗洛伦斯?南丁格尔?大卫之外,本书到目前为止介绍的所有统计学家都是男性。统计学发展的早期,该领域主要是男性的天下。虽然也有很多女性在统计领域工作,但她们大都从事一些统计分析所需的繁复计算,实际上可以叫做“计算员”。正因为需要大量的计算,工具又只是手摇式的计算机,所以,这类繁琐的工作常由妇女来承担。女性比男性温顺、有耐心,大家比较相信她们,会让她们来检查计算结果是否正确。在K?皮尔逊带领的高尔顿生物统计实验室(Galton Biometrical Laboratory)里,最典型的情景就是,皮尔逊带上几位男士四处走动,检查计算机算出的结果,或互相讨论深奥的数学理念,而女士们正在进行计算工作。
随着20世纪的发展,情况发生了变化。特别是耶日?奈曼,他帮助并鼓励很多女性,指导她们的博士学位论