不介入进来却不太可能。系统1不会受能力的限制,在计算时不要求确切数值。在搜寻某问题答案时,它能自动生成对相关问题的回答,还可能会将所问问题的答案替换成很容易出现在头脑中的回答。在启发式的概念中,启发式的回答并不一定比原来的问题更简单或需要更少的努力,启发式的回答只是更容易想到,更快、更容易被发现而已。启发式的回答不是随意想出来的,它们“似乎”是正确的答案。不过,有时也错得离谱。
系统1在处理信息时,可能会产生认知放松。当信息不可信时,系统1也不会生成警告信号。人们会快速且自信地进行直觉性回答,不管这些回答是否源于技能或启发式。系统2没有简单的方式来区分有技能的和启发式的回答。唯一的方式是放慢速度、自身构建出一个答案,这个答案可能不会被轻易接受,因为系统2比较懒惰。系统1的很多建议常常没有通过最基本的检验就得到了人们的支持,就像球拍和球的问题。这就是系统1得到“错误和偏见的起源”这个负面称号的原因。系统1的运行特征,包括眼见即为事实、强度匹配和联想一致性等,会产生可预测的偏见和认知错觉,比如锚定效应、回归平均值的预测、过度自信,以及许多其他错觉。
对于偏见我们能做什么呢?我们如何提升判断和决策(这些判断和决策来自我们自身和那些我们为之服务也服务于我们的机构)的质量呢?从自身经验来谈,系统1的运行方式是不能教给别人的。我除了认为年龄会有些影响外,我们的直觉思考就像我之前对这些问题作的研究那样,包括过度自信、极端预测和计划失误的倾向。我只提升了对易犯错误的情境的识别能力,“这个数字会成为一种锚定……”,“如果问题被重新架构,决策会改变……”而我在识别别人错误的过程中,也取得了更多的进步。
避免系统1出错的方法从原则上讲是很简单的:认识到你正处于的认知领域,放缓并要求系统2来加以强化。当再次碰到缪勒,莱耶错觉图时,你会怎么做?当你看到有箭头的线段指向不同的方向时,你会意识到现在你不能相信自己对长度的直觉。不过,这种明智的过程在最需要的时候不会被应用到生活中。我们都希望在自己要犯错时能有个铃声提醒自己,但这是不可能的,认知错觉比感知错觉更难以识别。理性的声音也许比错误的直觉响亮又清晰的声音更微弱。当你面临着重大决策的压力时,质疑自己的直觉会让你感到不愉快。当你处于麻烦中时,最不愿意看到的就是有更多的质疑。这样的结果就是,相比自己要犯错时,你在观察别人是否要犯错时,能更容易辨认出雷区。观察者会比实施者在认知上更为放松,更愿意接收信息。我写本书的一个原因就是指导批评家和传闲言碎语的人,而不是指导决策制定者。
机构要比个人更容易犯规避错误,因为机构的人多,自然就会思考得很慢,也更有能力按规则行事。机构可以制定和有效使用检查表,还可以深入开展,比如参考类别的预测以及“事前验尸”练习。机构能够鼓励其成员形成一种在靠近雷区时互相留意和提醒的文化,而这种文化的形成一部分是通过为其成员提供一些独特的词汇。无论机构是干什么的,都涉及判断和制定决策,就像是工厂生产产品,每个工厂都应该有保障其产品在最初设计、装配及最后检查时的质量的方法。决策产生的相关阶段包括解决框架问题、收集引导决策的相关信息、反馈以及检查。想要提高其决策质量的机构应该经常在每一个阶段里搜寻可提高效率的环节。这个运作的概念是有规律的。持续的质量控制通常是在危机产生后机构采取的对过程的全面回顾。其中一个例子就是明显缺乏主持高效会议必要技能的系统训练。
基本上,更为丰富的语言对于建设性批评来说是必不可少的技能。与医疗相似,辨别判断性错误就像是在诊断病人,需要一些精确的词汇。从某种疾病的名字中,我们希望得到所有关于这一疾病的信息,包括其易感染性、环境因素、症状、预断及治疗等。与其相似的是,如“锚定效应,”“窄框架”、“过度一致性”也能使我们想到关于某个偏见的所有信息,包括其原因、影响以及我们能对其做些什么。
在办公室饮水机旁的闲谈与决策有直接的联系:闲谈越多,所做的决策就可能更好。有时,决策制定者能听到大家当时传的闲言碎语和批评,这比听自己内心疑虑更容易。当他们相信批评自己决策的人经验丰富且公平正直,或当他们希望自己的决策能通过制定的方式而不是结果来评判的话,就会做出更好的决策。
附录A 不确定性下的判断:启发法和偏见
(本文首次刊登于1974年的《科学》杂志上,第185卷。美国国防部高级研究计划局为此项研究提供了支持,海军研究办公室也与位于尤金的俄勒冈研究院签订了合约,监督该研究。另外,该研究还得到了位于以色列耶路撒冷的希伯来大学研究与开发部门的支持。)
我们所做的许多决策都是基于对不确定事件概率的信念,这些不确定事件包括选举结果、被告的内疚感或是美元的未来价值。这些信念通常被表述为“我想……”“概率是……”“它是不可能的……”等。对于不肯定事件的信念有时还能以概率或主观概率等数字形式表现出来。那么,是什么决定了人们的信念?
人们又是怎样评估不确定事件的概率和不确定数量的价值呢?本文将会告知你们,人们依赖于数量有限的启发式原则,而这些原则能将测量概率以及预测价值的任务简化,使其成为更为简单的判断过程。总的来说,这些启发法相当有用,但有时也会导致严重的、系统性的错误。
对概率的主观评估与对距离或大小等物理量的主观测量相类似。这些判断都依赖于效度有限的数据,是根据启发式的规则进行的。例如,某物体的距离取决于其清晰程度。物体看上去越清楚,其距离就显得越近。这条规则有一定的效度,因为在任何给定的情境中,距离较远的物体都会比距离较近的物体更不清楚。然而,对这条规则的信赖会导致我们在测量距离的过程中产生系统性错误。特别是在能见度较低时,物体轮廓就会模糊,而其距离就常常会被高估。另一方面,在能见度较高时,物体轮廓就会清晰,其距离也就会被低估。因此,如果依赖于清晰度,将清晰度作为测量距离远近的标尺的话,就会导致普遍的偏见。这样的偏见在对概率直觉性的判断中也会出现。本文将描述三种应用于判断概率和预测价值的启发式,列出由这些启发式引起的偏见,并讨论这些偏见的实际应用和理论内涵。
代表性
人们考虑的许多概率问题都包含在以下某个类型当中:物体A属于类别B的概率是多少?事件A起源于过程B的概率是多少?过程B引起事件A的概率是多少?人们在回答这些问题时,会典型地依赖于代表性启发法,即通过用A来代表B,也就是通过比较B与A的相似程度来对概率进行评估。例如,如果A能高度代表B,人们就会认为A源自B的概率高。但如果A与B并不相似,人们就会认为A源自B的概率低。
若想通过代表性对判断进行阐述,请考虑下面这个情况,若有某个人被他原来的邻居描述为:“史蒂夫非常腼腆,少言寡语,很乐于助人,却对他人或这个现实世界没多大兴趣。他谦恭有礼,做事井井有条,中规中矩,关注细节。”人们如何从一个可能的职业列表中(例如农民、售货员、飞行员、图书管理员或是医生)评估他从事某个特定职业的概率?又如何根据可能性的大小来将这些职业进行排序呢?在代表性启发法中,例如,史蒂夫是个图书管理员的概率是通过其与典型的图书管理员形象的代表性或相似性来进行评估的。事实上,对于这类问题的研究已经表明,人们对职业概率的排序与对职业相似性的排序方法完全是相同的。而这种关于概率的判断方法会导致严重的错误,因为相似性或代表性不会受到某些因素的影响,而这些因素却能影响对概率的判断。
对结果的先验概率(prior probability)不敏感。对代表性没有任何影响而对概率有重要影响的其中一个因素是结果的先验概率,或基础比率。例如,在史蒂夫的那个例子中,在我们作出史蒂夫是个图书管理员而不是农民的理性评估时,是应该将农民比图书管理员人数更多的事实考虑在内的。然而,对基础比率的考虑并不会影响史蒂夫与图书管理员以及农民的典型形象的相似性。因此,如果人们通过代表性来评估概率,先验概率就会被忽视掉。我们在运用了先验概率的实验中检验了这个假设。在实验中,我们向受试者简要概述了几个人的性格,这几个人是从100位工程师及律师的样本中随意抽取出来的。而受试者需要通过对每个人的描述来评估其是工程师还是律师。在某个实验情境中,受试者被告知这些被描述的100人中,有70位工程师、30位律师。而在另一个实验情境中,受试者被告知这100人中,有30位工程师、70位律师。在第一种情境下,受试者判断任意一个描述是关于工程师的而不是关于律师的概率都应该高于第二种实验情境。因为第一种情境中工程师更多,第二种情境中律师更多。值得注意的是,我们通过贝叶斯定理还能知道每个描述的概率比率应该是(0。7、0。3)2,或是5。44。然而,这些受试者在这两个实验情境中都得出了同样的概率判断,这严重违反了贝叶斯定理。很明显,受试者认为某个特定的描述是在说工程师而非律师是通过描述对于这两个典型职业的代表程度而来的,而很少或根本就不考虑其所属类别的先验概率。
当这些受试者没有其他信息来源时,他们会正确地利用先验概率。在没有人物描述的情况下,受试者判断某个人是工程师或律师的概率分别是0。7和0。3,这与基础比率正好符合。然而,当某个描述存在,就算这个描述没有任何信息,先验概率还是会被彻底忽略掉。对于以下描述的回应就阐明了这个现象:
迪克是位30岁的男性,已婚,但无子女。他能力强,干劲足,承诺一定要在自己的领域功成名就。他很受同事的欢迎。
这个描述所传达的信息与迪克是工程师还是律师的问题完全没有关系。因此,迪克是工程师的概率应该与工程师占样本总人数的比率相同,就如同我们没有得到任何有关迪克的描述时一样。然而,受试者却将迪克是工程师的概率判断为0。5,并不关注工程师占总人数的比率是0。7还是0。3。很明显,在没有任何证据和得到了一些无用的证据之后,人们的回应是不同的。在没有任何特定证据的情况下,先验概率能够被合理地应用;而在得知一些无用证据的情况下,先验概率就会被忽略。
对样本大小的不敏感。在某个指定大小的样本中,评估获得某个特定结果的概率时,人们总会应用代表性启发法。即他们会通过某个样本结果与相关参数的相似性来评估这个结果的概率。例如,人们会认为随机抽取的10位男性的平均身高是6英尺,而这个结果就是由与相应参数(这个参数即是男性人口的平均身高)的相似性得来的。某个样本的统计数据与人口参数的相似性并不是由样本的大小来决定的。其结果就是,如果我们通过代表性来评估概率,判断出的某个样本的统计数据实质上就是独立于样本大小的。的确,当受试者评估大小不同样本的平均身高分布时,他们得出的分布是相同的。例如,人们在评估平均高度高于6英尺的概率时,无论样本大小是1000、100还是10位时,其得出的分布都是相同的。另外,即使样本大小的重要性在问题形成之时就被强调过,受试者还是不能体会其所起的作用。请考虑下面的问题:
某个城镇有两家医院。在较大的那家医院里,每天大约有45个婴儿降生,而在较小的医院里,每天有15个婴儿降生。如你所知,其中50%的婴儿应该是男婴。然而,男婴实际的百分比每天都会有所变化,有时会高于50%,有时会低于50%。
在一年的时间里,每家医院都记录了新生婴儿中男婴比率大于60%的天数。你认为,哪一家医院记录的天数更多?
更大的医院:(21)
更小的医院:(21)
大致相同:其天数的不同在5%的范围内,(53)
括号中的数值表示的是选择该答案的大学生人数。
无论是大医院还是小医院,多数受试者判断出的60%以上新生儿是男婴的概率都是相同的。这可能是因为这些事件都来自于同样的统计资料提供的描述,因此关于总体情况的代表性相同。相反,以样本理论进行分析的话,在小医院里,超过60%的婴儿是男婴的天数肯定应该比大医院的多,因为大样本的男女比率不太可能偏离50%。很明显,这个统计学的基本概念与人类的直觉不相符。
在对后验概率(即从一个整体而不是另一个整体中抽取样本的概率)的判断中,人们对样本大小的问题也不是很敏感。
请考虑下面这个例子:
想象有个装满球的罐子,其中有三分之二的球是一种颜色,三分之一的球是另一种颜色。某个人从罐子里取出了5个球,发现有4个是红色的,1个是白色的。另一个人取出了20个球,其中有12个是红色的,8个是白色的。这两个人中,谁更会认为罐子里三分之二的球是红色的,三分之一的球是白色的?每个人给出的概率各是多少?
在这个问题中,假设两次抽取的先验概率相同,那对于4:1的那个样本来说,其正确的后验概率应为8:1;而对于12:8的样本来说,其后验概率为16:1。然而,大多数人却认为第一个样本为罐子里主要是红球的这个假设提供了更为有力的证据,因为第一个样本的红球比例要比第二个样本的高。这再次证明了,直觉性判断由样本比例主导,本质上并不受样本大小的影响。然而,样本大小