J?奈曼的数学教育
当第一次世界大战在东欧爆发,奈曼的祖国陷于战火之中的时候,他还是一个在数学系读书的非常有发展前途的大学生。他被迫搬到俄国,就读于卡尔可夫大学(University of Kharkov)——一个远离数学活动的视野偏狭的地方。学校缺少具有当代最新数学知识的合格老师,而且由于受到战争的影响,他是在学期中途才入学的,因此,在卡尔可夫,他只学到一些最基础的数学知识。奈曼只能寄希望于那些能得到的数学期刊,从中查找论文文献。可想而知,奈曼受到的正规的数学教育只相当于19世纪学生学到的内容,20世纪的数学知识则是他通过自学掌握的。
对奈曼来说,可利用的数学期刊仅限于卡尔可夫大学的图书馆和后来在当地的波兰学校图书馆里能找到的。偶然的机会,他发现了亨利?勒贝格(Henri Lebesgue 18571941)的一套论文集。20世纪的最初几年,勒贝格提出许多现代数学分析的基本思想,但是他的论文晦涩难懂。后来的数学家把勒贝格积分、勒贝格收敛定理以及这个伟大数学家的其他一些创见简化并整理成更容易理解的形式。现在已经没有人再去读勒贝格的原著了,学生们都是通过阅读这些新版的文章来学习勒贝格的思想。
所谓的“没有人”当然是除了奈曼之外的,当时他只有勒贝格的原文可以读,他苦读这些原文,从中感受到了这些全新的(对他而言)伟大创见所蕴含的辉煌。此后的许多年,奈曼一直非常景仰勒贝格,20世纪30年代末在法国的一次数学研讨会上,终于得以与勒贝格见面。据奈曼所说,勒贝格表现得态度生硬、粗鲁无礼。当奈曼热情洋溢地表达对他的仰慕时,他阴郁冷淡地回应了一句,就转身离开了正在喜出望外地等待与他交谈的奈曼。
这种冷淡让奈曼深受伤害,并且,奈曼可能把这次经历当作了反面教训,他对青年学生一直都格外的亲切有礼,仔细地倾听他们的谈话,并对他们的热情给予鼓励和回应。奈曼正是这样的一个人。所有认识他的人都对他的亲切和蔼、富于同情心的为人记忆犹新。他与人为善、体贴入微、待人真实宽厚。当我见到他的时候,他已经80多岁了,一个身材瘦小、举止高贵、衣着讲究、蓄着整洁白胡须的老人。他在听别人讲话和别人深入交谈的时候,蓝眼睛神采奕奕地闪烁着,对每个人都同样地全神贯注,无论对方是谁。
在他的职业生涯之初,奈曼好不容易才找到工作,成为华沙大学(the University of Warsaw)的一个年轻的教师。当时,刚刚独立的波兰因资金短缺,没钱资助学术研究,也很少有给数学家的职位。1928年,他在伦敦的生物统计实验室呆了一个暑假,并认识了E?皮尔逊和他的太太艾琳(Eileen)以及他们的两个女儿。E?皮尔逊是K?皮尔逊的儿子,但是父子两人在个性上的天壤之别可谓绝无仅有:K?皮尔逊精力充沛,有支配控制他人的欲望;E?皮尔逊却腼腆谦虚。K?皮尔逊喜欢追逐新观念,常在数学概念还相当模糊,甚至还存在某些错误的时候,就忙着发表论文;E?皮尔逊则极其小心谨慎,甚至为每一步计算的细枝末节担忧。
E?皮尔逊与奈曼的深厚友谊长存在两人19281933年间的通信中。这些信件展示了他们对社会科学卓越的洞察力,以及两颗富于独创精神的心灵是如何提出各自的想法,或批评对方的想法,并共同解决难题的。E?皮尔逊踌躇地指出奈曼的提议或许不可行,这时他表现出谦逊的一面;奈曼巧妙地剖析复杂的问题,并抓住每个难题的重要本质,这时展现出他的独创力。有人如果想知道数学研究为什么是需要经常进行合作的事业的话,我建议他看看奈曼与E?皮尔逊的通信。
E?皮尔逊对奈曼提出的第一个问题是什么呢?回想K?皮尔逊的χ2拟合优度检验,他创立这种方法来检验观测数据是否与理论分布相符。但事实上根本不存在像χ2拟合优度检验的这种东西。分析人员有无数种方法可用来对给定的一组数据进行检验,似乎没有任何准则能够判定如何在这么多的选择中挑选出“最好的”。每次用到检验的时候,分析人员必须做出一个相当随意的选择。对此,E?皮尔逊问了奈曼以下的问题:
如果我用了χ2拟合优度来检验一组服从正态分布的数据,但我没能得到一个显著的P值,那么我怎么知道这组数据确实服从正态分布呢?也就是说,我怎么知道至今尚未发现的另一种χ2检验或者另一种拟合优度检验不会已经产生了一个显著的P值,而允许我在拟合数据的时候拒绝这个正态分布呢?
奈曼的数学风格
奈曼把这个问题带回华沙,并由此而开始了两人之间的书信往来。奈曼与小皮尔逊都对费歇尔建立在似然函数基础上的估计概念印象深刻。通过检查与拟合优度检验联系在一起的似然函数,他们开始了调查研究。两人联名发表的第一篇论文介绍的就是那些研究的结果。这是他们撰写的三篇顶尖论文当中最难的一篇,它几乎彻底变革了关于显著性检验的全部思想。当他们继续探索这些问题时,奈曼极度清晰的洞察力使问题在蒸馏中不断提纯,精炼出最基本的元素,使他们的研究成果变得更为清晰,也更容易理解。
虽然读者对此可能不太相信,但在数学研究领域,一个人写文章的风格确实发挥着很重要的作用。有些数学文献的作者似乎写不出让人容易理解的文章;有些人则似乎以写成一行又一行的数学符号与注释为乐事,一篇论文中充斥着无比繁琐的细节,以至于把总的思考都迷失在了微不足道的细节中。与之相反,有些作者却总是有能力用非常简单而有说服力的方式表达复杂的思想,数学的发展在他们的表达中显得如此的鲜明而平实。只有在回顾已经学到些什么时,读者才会确实认识到结果的伟大力量。奈曼就是这样的作者,读他的论文是件令人愉快的事,数学观点自然地展开,使用的符号简单得令人无法相信,结论的显现竟如此的自然,以至于让人感到难以理解,不禁要问,为什么很久以来居然没有人发现这项结论?
我在辉瑞的研究中心工作了27年,该中心每年都赞助康涅狄格大学举办一次学术年会。该校的统计系通常会邀请一位生物研究方面的重要人物来一天,与学生们见面聊聊,随后,会在下午的晚些时候发表演讲。由于我曾经参与负责一年一度的研讨会的资金事宜,因此有幸会见统计学界的一些大人物,奈曼就是应邀者之一。在一次研讨会前,奈曼想让他的演讲以一种特殊的方式进行,他先介绍一篇论文,随后组织一个专题组来评判他的论文。由于是大名鼎鼎的奈曼,研讨会的组织者联系了美国新英格兰地区著名的资深统计学家组成了这个专题讨论组。在研讨会开幕前的最后一记得,有位专题组成员无法出席,于是会议安排我代替他。
奈曼事先已经把他打算演讲的论文印发给了我们。那真是篇激动人心的论文!论文中奈曼利用他1939年完成的研究成果,去解决一个天文学上的难题。我知道1939年的那篇论文。几年前,当我还是个研究生的时候就看到了它,并留下了深刻的印象。论文中阐释了奈曼已经发现的一类新的分布,他称之为“散播分布”(contagious distribution)。论文中所提到的问题,开始是试着模拟土壤里昆虫幼虫的分布情形:即将排卵的母昆虫带着满肚子的卵在田野里四处飞,然后随机选取一个地点排卵,一旦排完卵,幼虫孵化出来,就从那个地点钻出地面。现在,从田野里取一个土壤样本,那么,在这个样本里发现的幼虫数量的概率分布是什么?
散播分布描述了这种情形。奈曼1939年的论文,运用一系列看似简单的方程,导出散播分布。推导的过程看上去明显而自然。显然,看完论文之后,读者会觉得除了奈曼的做法之外,再没有更好的推导方法了。但这只是在读了奈曼的文章后才清楚的。自从1939年那篇论文发表之后,人们发现奈曼的散播分布适用于相当多的领域,如医学研究、冶金术、气象学、毒物学,以及解决宇宙中星系的分布问题(就像奈曼在辉瑞的那个研讨会介绍论文所描述的)。
演讲结束,奈曼坐下来听专题小组的讨论。讨论组的其他成员都是著名的统计学家。由于太忙,不能提前阅读他的论文,他们把辉瑞的研讨会作为对奈曼荣誉的肯定。他们的“讨论”包括对奈曼的学术生涯和以往建树的评论。我作为最后一记得的替补者加入到这个专题组中,并且被告之不能提及我先前和奈曼相处的经历(其实我根本没有这种经历)。因此,我就应他的本意,直接评论奈曼那天演讲的东西。我提到在几年前是如何发现了1939年的那篇论文,以及为了准备参加座谈会,重读了论文。我尽一切所能描述论文的内容,谈到奈曼创立的分布参数其意义的巧妙方式时,我显出极大的兴趣。
奈曼对我的评论显得非常高兴。之后,我们俩热烈地讨论了散播分布以及它的用法。几周以后,我收到寄来的一个大包裹,是一本加州大学出版社(The University of California Press)出版的《J?奈曼早期统计论文选》(A Selection of Early Statistical Papers of J。 Neyman),在书的内封有一行题词:“致大卫?萨乐斯伯格(David Salsburg)博士,衷心感谢他在1974年4月30日对我演讲的有趣讲评。J?奈曼。”
我把这本书视为珍宝,一是由于奈曼的题字,二是因为书中那一系列精美绝伦、文笔极佳的论文。从那时起,我有机会与奈曼的很多学生和同事交谈,得知这个我在1974年碰到的、友善的、风趣的、有感召力的人,也是他们深知并崇敬的人。
第11章 假设检验
在他们一开始合作的时候,E?皮尔逊就问耶日?奈曼,在检验一组数据是否为正态分布时,如果没能得到一个显著性的P值,那么怎样才能看这组数据是正态分布的呢?他们的合作从这个问题开始,然而,E?皮尔逊最初的这个问题,却打开了一扇通往更广阔领域的大门。在显著性检验中,如果得到的是一个不显著的结果,那么它的涵义是什么呢?如果我们找不到拒绝一个假设的证据,我们能做结论说这个假设为真吗?
费歇尔其实已经间接地回答了这个问题。费歇尔把比较大的P值(代表没有找到显著性证据)解释为:根据该组数据不能做出充分的判断。依据费歇尔的解释,我们绝对不会得出这样的推理,即没有找到显著性的证据,就意味着待检验的假设为真。这里引用费歇尔的原话:
相信一个假设已经被证明是真的,仅仅是由于该假设与已知的事实没有发生相互矛盾,这种逻辑上的误解,在统计推断上是缺乏坚实根基的,在其它类型的科学推理中也是如此。当显著性检验被准确使用时,只要显著性检验与数据相矛盾,这个显著性检验就能够拒绝或否定这些假设,但该显著性检验永远不能确认这些假设一定是真的,……如果显著性检验真的被人们理解到这种程度,那么就说明显著性检验的道理已被人们认识清楚了……
在这之前,K?皮尔逊常常利用他的卡方拟合优度检验来“证明”某些数据符合某些特定的分布。在费歇尔把更精确的方法引入到数理统计之后,K?皮尔逊的方法就不再为人接受了。但问题仍然存在。为了知道应该估计哪些参数,为了确定这些参数与所研究的科学问题之间有何关系,我们必须假设该数据符合某一特定的分布。统计学家们常常会利用显著性检验来证明数据符合何种分布。
在他们的通信往来中,E?皮尔逊与奈曼经常探讨一些由显著性检验中浮现出来的悖论,不假思索地使用一项显著性检验,可能会把一个显然为真的假设拒绝掉。但费歇尔从未陷入这种尴尬,因为对他来说,显著性检验怎样被误用他是非常清楚的。奈曼问:用什么标准来判断一项显著性检验的应用是正确的还是不正确的呢?逐渐地,随着E?皮尔逊与奈曼的书信往来,加上奈曼在暑期到英国的几次访问以及E?皮尔逊的几次波兰之旅,假设检验的基本思想已经浮出水面 。
现在,在所有基础统计学的教科书中,都可以发现一个简化的奈曼-皮尔逊假设检验理论公式。该公式结构简单,我发现大部分的大学一年级学生很容易看懂,因为已经被编纂整理过,所以这个公式很精确,也很有说服力。假设检验理论必须这样来写,当然这也是教科书所需要的写法,也只能这样来写。这种直接表述假设检验的方法已经被一些政府和社会机构所接受,如美国食品及药品管理局、美国环保署,许多医学院在给将来做医学研究的人授课时,采用的也是这一套方法。此外,这种方法也逐渐地被应用到了司法界,当法院处理某些需要鉴别的歧视性案子时,就经常会用到这种方法。
当由奈曼和E?皮尔逊创建起来的这种理论以奈曼的这种直接而简化的方式来讲授时,由于集中于公式中有错误的一面,从而曲解了他的发现。奈曼的主要发现是,除非至少有两个可能的假设,否则显著性检验根本就没有意义。也就是说,你不可能检验一组数据是否服从正态分布,除非你认为该组数据也可能会被其它的一些分布或分布集来拟合。这些备择假设的选择,决定了显著性检验的执行方式。当一个备择假设为真时,该备择假设被接受的概率奈曼称之为该检验的效力(power)。在数学里,要清晰阐述一种思想,通常要给某一特定的概念赋予清楚明确的定义。为了区别被用来计算费歇尔P值的假设与其它可能的一个或多个假设,奈曼和E?皮尔逊把被检验的假设称为“零假设”(null hypothesis),称其它可能的假设为“备择假设”(alternative hypothesis)。在他们的理论公式中,计算P值是为了检验零假设,而检验的效力则是指在备择假设为真的条件下P值的表现效果。
奈曼由此得出两个结论。第一个结论是,检验的效力是用来测量一个检验方法好坏
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。
赞一下
添加书签加入书架