《女士品茶》

下载本书

添加书签

女士品茶- 第32部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
数据的分析应该是相当直接的,用费歇尔方法,只要在不同治疗方法的组别间,比较病人的5年存活率即可。另外还可以进行更加精确的比较,就是用奥伦(Aalen)的鞅方法(martingale approach),分析从开始研究到每个病人死亡的时间,以此作为衡量治疗效果的基本标准。不论是哪种方法,分析结果的准确性取决于最初分配给病人采用治疗方法的随机选择。根据费歇尔定律,指定病人采取何种治疗方法与研究的结果是完全不相关的,假设检验的P值是可以计算出来的。
皮托的难题是所有病人的治疗方法并不是随机指定的。这些病人也是人,正饱尝病痛的折磨,而且很多人得的是绝症,因此医生沉得有责任放弃实验性的治疗,或者如果觉得对于病人来讲是最好的选择的话,至少也要进行方案的调整。盲目地照搬某种治疗方法而不考虑病人的需要和反应是不首先的。与费歇尔的实验设计要求相矛盾,在这些实验中的病人经常变换治疗方法,而对治疗方法的选择主要取决于病人的治疗效果,如果效果好可能会继续采用这种方法,一旦觉得治疗效果不理想就会改变治疗方法。
这是癌症研究中的一个典型问题。从20世纪50年代人们刚刚开始研究癌症起,这就一直是一个令人困扰的问题,直到皮托涉入此领域研究之前,通常的做法只是去分析那些坚持采用随机分配治疗方法的病人,而其他的病人不在分析的范围之内。皮托认为这会导致严重的错误。例如,假设我们正在比较两种治疗方法,一种是有效的治疗,另一种只是给病人服用安慰剂,即一种没有生物作用的药物。如果病人对治疗无反应,就会转而使用常规的治疗。服用安慰剂、没有效果就转而使用别的治疗方法的病人不能做为研究对象,只有那些继续服用安慰剂、因为某些原因有反应的病人才是研究的对象。如果在研究分析中的研究对象只有那些继续服用安慰剂并且有反应的病人,那么研究的结果必然是:安慰剂治疗方法与有效的治疗具有同样的疗效,甚至可能疗效更好。
德克萨斯州安德森医院(M。 C。 Anderson Hospital)的埃德蒙?吉亨(Edmund Gehan)比皮托更早发现了这个问题。他当时的办法只是提出:因为这些研究不符合费歇尔实验的条件,所以不能够作为比较不同治疗方法的有效实验,只能算是研究中通过对采用不同治疗方法病人仔细观察而取得的记录,最多只是对实验结果的一种总体描述,为以后的治疗提供了一些思路。后来,吉亨也考虑了解决这个问题的不同方法,但是他的第一个结论让人非常气馁,竭力想在一个设计和执行都不好的实验中运用统计分析方法看来是不可能的。
皮托提出了一个直截了当的解决方法:当比较不同的治疗方法的疗效时,病人采用哪种治疗方法应该是随机的,否则不可能在假设检验中计算出P值。他建议在分析过程中假定每个接受治疗的病人采用治疗方法是随机分配的,否则不可能在假设检验中计算出P值。他建议在分析过程中假定每个接受治疗的病人采用治疗方法是随机分配的,忽略研究中治疗方法的调整。如果一个病人随机采用方法A,但在研究结束前改变了方法,这个病人视为采用A方法的病人进行研究;如果病人随机采用方法A只治疗了一个星期,病人当作采用方法A来分析;如果病人随机采用A方法治疗,却根本没有吃一粒A方法的药,就采用了另外一种治疗方法,这个病人仍被视为采用方法A的病人。
乍一看这种方法是愚蠢的。人们可以假设一种情形:对一个实验治疗方法和一个标准治疗方法进行比较,病人采用的实验治疗方法一旦失败就会转而使用标准方法。如果实验治疗方法是无用的,那么,所有的或者大多数被随机指定使用实验治疗方法的病人就会转而使用标准方法,分析将会发现这两种治疗方法效果是一样的。正如皮托在他的假设中指出的,这种分析研究结果的方法不能用于比较疗效相同的治疗方法,只有当疗效“不同”时才可使用。
皮托的方法后来被称为“意向治疗”(intert to treat)分析方法。这样命名的理由及其用途是:如果我们对医疗政策的总体结果感兴趣的话(该政策通常会推荐使用某个治疗方案),就得授权引而伸之医生,让他可以按照他的判断去调整治疗方法。用皮托的方法,临床实验的分析可以判断:建议使用一个给定的方法作为治疗的起点,是不是一个好的公共政策。“意向治疗”分析方法最被认为是一种很好的方法,适合用于那些政府资助的、为制定好的公共政策而进行的大型研究。
很不幸的是,有些科学家往往在并不了解和理解其背后数学含义的情况下,随意地把一些统计方法拿过来就用,这在临床研究中是司空见惯的。皮托早就指出了他的方法的局限性,但是意向治疗方法不但已经成为许多大学里的医科教条,并且被认为是临床实验唯一正确的统计分析方法。在许多临床实验中,尤其是对癌症的研究实验,实验设计是为了证明新的治疗方法至少与标准治疗方法效果相同,同时副作用较小。很多的实验目的是为了显示新疗法的等效性。正如皮托指出的,他的方法只能用来找出差别,但是,如果没有找出差异也并不代表两种方法的疗效相同。
某种程度上,这个问题的产生主要是因为奈曼-皮尔逊理论的刚性。在基础统计学的教科书里都可找到奈曼-皮尔逊理论的标准版本,假设检验往往被介绍为一种固定的程序,方法中许多完全随意的方面也被描述成不变的。
尽管许多这些随意的元素并不适用于临床研究 ,但是一些医学家在研究中不得不用“正确”的方法,这种需求使得他们视奈曼-皮尔逊理论为最严格的信条,除非通过统计程序事先确定了P值,并且使之保持不变,否则没有任何事是可接受的。这是费歇尔反对奈曼-皮尔逊理论的原因之一,他认为P值和显著性检验的应用程序不应该受如此严格条件的限制,他特别反对奈曼事先竟然确定了错误概率的存在,并且只有在P值小于这个事先确定的值时才有效。费歇尔在《统计方法和科学推论》(Statistical Methods and Scientific Inference)一书中建议,对于P值多大才有意义,最后结果应视情况而定。在这里我用了“建议”的字眼,是因为费歇尔从没有很明确地说明他怎么使用P值,他只是提供一些例子。

考克斯的理论
1977年,大卫?R?考克斯(即第23章里提到的博克斯和考克斯中的一位)开始研究费歇尔的论点,并对它们加以发展。为了区分费歇尔所用的P值和奈曼-皮尔逊理论,他称费歇尔的方法为“显著性检验”(significance testing),而称奈曼-皮尔逊的理论为“假设检验”(hypothesis testing)。在考克斯撰写他的论文的时候,统计显著性(通过计算P值)的计算已经是应用最广泛的科学研究方法,因此,考克斯断言,这种方法已经证明了其在科学研究中的作用,尽管存在费歇尔与奈曼之间的尖锐争执,尽管存在W?爱德华兹?戴明这样的统计学家坚持认为假设检验毫无用途,尽管出现了根本不需要计算P值、不需要考虑显著性的贝叶斯统计学……总之,尽管在数理统计学家之间存在着上述这些争论,显著性检验和P值一直被使用着。考克斯就问了:科学家真的在使用这些检验吗?他们怎么会知道这些检验的结果是真的还是有用的呢?他发现,在实践中,科学家用假设检验主要是通过消除不必要的参数,来提高其对现实的了解程度,或是用来在两个不同的现实模型间进行选择。

博克斯的研究方法
博克斯(博克斯和考克斯中的另一位)从稍微不同的角度来研究这个问题。他认为,科学研究不只是做一个简单的实验,科学家在进行实验前,已经掌握了大量的知识,或者至少对实验的结果已经有了一个期望值,研究是为了提升知识、实验设计取决于你要提升的知识类型。在这一点上,博克斯和考克斯具有很多共同之处。对于博克斯来说,一次实验是一系列实验的一部分,将这次的实验数据与其它实验的数据进行比较,那么早先的知识就会在新的实验中和对以往实验的重新分析中得到重新审视。科学家从未停止过对以往研究的回顾,并从较新的研究视角去提升过去的认识。
举一个关于博克斯方法的例子。假设一个造纸厂引进了博克斯的一个主要创新方法——调优运算(evolutionary variation in operations,EVOP),按照博克斯的方法,这个工厂在生产过程中引入了一系列的实验,用不同的方法在温度控制、速度、硫磺处理过程以及温度控制等环节进行了微调,结果发现纸张的强度变化不大。如果要生产的产品仍然可销售的话,这种变化是不能大的。然而,根据费歇尔的方差分析(analysis of variance),用这些微弱的差别可以进行另外一个实验,在这个新的实验中,纸的平均强度稍微增大,这样,这个新的实验就可以用来确定可以提高纸张强度的工作方向。在过程操作改进中每个步骤的结果都与先前步骤的结果进行比较,当得到的结果看起来比较反常时,实验要重新做,这个过程周而复始——永远没有所谓最终“正确”的结论。在博克斯的模型里,这个不断进行着数据检验和再检验的科学实验是没有尽头的——没有最后的科学真相。

戴明的观点
戴明和其他许多统计学家坚决否定假设检验的作用。他们坚持认为费歇尔的估计方法才是统计分析的基础,认为真正应该估计的是统计分布的参数,而通过P值和武断的假设间接地处理这些参数而进行的分析是毫无意义。这些统计学家继续使用奈曼的置信区间去衡量他们研究结论的不确定性,但是他们却认为奈曼-皮尔逊的假设检验就象K?皮尔逊的矩法(method of moments)一样已经过时了。有趣的是,奈曼自己也很少在他的应用性论文里用到P值与假设检验。
对假设检验的拒绝以及博克斯与考克斯对费歇尔显著性检验定义的重新诠释,使得人们可能对于皮托在癌症临床研究中解决问题的方法提出质疑。但是他面对的这个根本问题始终没有解决。当接受治疗的病人改变治疗方法,实验因此被动地做了调整时你能怎么做?亚伯拉罕?沃尔德(Abraham Wald)已经指出在实验中怎样的调整是可以接受的,那就是序贯分析(sequential analysis)。但是在皮托的问题中,肿瘤学家不会采用沃尔德的序贯分析法,一旦他们察觉到必要时,他们就会采用不同的治疗方法。

科克伦的观测研究
从某种方面来说,皮托的问题也是约翰?霍普金斯大学的威廉?科克伦在20世纪60年代研究的问题。巴尔地摩(Baltimore)市政府想知道,公共住宅是否影响低收入人群的社会态度和生活水平的提高。他们联系了约翰?霍普金斯大学的统计小组,请求他们帮助设计一个实验。按照费歇尔的方法,约翰?霍普金斯大学的统计学家建议寻找一群人,不论他们是否申请了公共住宅,随机分配公共住宅给其中一部分人,而对其中的另外一些人不提供公共住宅。这个建议吓坏了市政官员,以往,在公布安置公共住宅时,他们通常的做法是先到先受理,这是惟一公平的做法,他们不能拒绝那些先提出申请而却是因为计算机的随机抽取而没有选中的人。但是约翰?霍普金斯大学的统计学家指出,不管使用何种方法,那些最先申请的人通常都是最积极并且有野心的人,如果这种说法是对的,那么住在公共住宅里的人本来就比另外一些人干得好,这与提供住宅本身无关。
科克伦的结论是,如果他们不能够采用已经设计好的科学实验,那么通过追踪那些住进公共住宅以及那些没有住进的家庭,他们可以采用观察研究的方法来替代。这些家庭有很多因素不同,如年龄、受教育程度、宗教信仰以及家庭的稳定状况。他对这类观察研究的统计分析提出了许多方法,在各种方法中,他会考虑不同家庭的上述因素对测量结果进行调整,建立一个数学模型,其中包括年龄、是否是单亲家庭、宗教信仰等因素的影响力。一旦代表这些因素的影响力参数估计出来了,剩下的影响就应该是由公共住宅造成的。
如果临床研究声称,治疗效果的差异已经根据病人年龄和性别的差异进行了调整,那就是说研究人员在估计治疗方法的主要效果时,已经应用了科克伦的方法,并且考虑了在治疗中为病人指定方法不平衡性的影响。几乎所有社会学研究都采用了科克伦的方法,但有些研究的作者可能没有认识到他们用的方法来自科克伦,而且认为其中很多特殊技术通常比科克伦的研究还要早。然而,科克伦为这些方法建立了稳定的理论基础,他写的关于观察研究的论文已经影响了医学、社会学、政治科学和天文不,在这些领域里“治疗方法”的随机指派,既不可能,也不道德。

鲁宾模型
在20世纪80年代和90年代,哈佛大学的唐纳德?鲁宾(Donald Rubin)提出了不同的方法,来解决皮托的问题。在鲁宾的模型中,假设每个病人对每个治疗方法都有一个可能的反应,也就是说,如果有两个治疗方法A和B,我们可以只观察采用其中一种治疗方法的病人,这些病人采用的方法是已经确定的。我们可以建立一个数学模型,在这个模型的公式中用一个符号来表示每种病人可能会有的反应。鲁宾界定了这个数学模型的使用条件,而在估计病人转而使用其它治疗方法会有什么样的反应时,这些条件是必需的。
鲁宾模型和科克伦的方法可以应用于现代统计分析中,因为应用计算机可以处理大量的数据。这些方法即使在费歇尔时代有人想到了,也是不可能实现的,因为这个数学模型涉及的数据太多,计算非常复杂,必须要借助于计算机。这个方法经常要求进行迭代计算,计算机要进行上万甚至百万次的计算,最后才会收敛

小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架