物理学的逻辑和霍金的答案
明星物理学家霍金的新书《大设计》(The Grand Design
)和当年的《时间简史》一样受到公众和媒体的热烈追捧,成为又一本能够连续占据畅销书排行榜的“物理书”。很多媒体关注的重点都是霍金在这本书里排除了上帝存在的可能性,但其实这本书说的是比上帝存不存在更重要的事。它说的是为什么会有这么一个恰好适合人类生存的宇宙。
这大概是人类所能提出的最大问题了。宇宙为什么存在?宇宙是怎么起源的?我们这个宇宙的性质非常精妙地符合人类需求,那么它是被“设计”出来的吗?很多人认为物理学家跟哲学家及宗教人士一样,追问这些问题是为了获得“内心的平安”,但物理学家跟他们不一样。物理学有一套非常不同的逻辑。
我曾经在一次聚会上跟一位牧师聊天。这是一位非常虔诚的牧师,走到哪里都带着一个破旧的随身听(里面有有声版的《圣经》)。我以为我的知识足以挑战他的信仰,我问他你怎么可能相信地球是在六千多年前被上帝创造的呢?我们有充分的证据表明地球上有很多东西的年龄超过一百万岁。不料这位牧师说了一个几乎让我目瞪口呆的理论。他说上帝创造万物的时候可以创造各种年龄的万物。这就好比说假设我现在可以创造出一个人来,这个人的年龄看上去是20岁,可是他是什么时候被创造的?现在被创造的。
这真是一个完美的理论,我无法从逻辑上质疑它的正确性,这位牧师靠这个理论获得了内心的平安。可见获得内心的平安是容易的事情,如果你相信上帝无所不能,上帝安排了一切,你就可以解释任何现象,你就获得了内心的平安。可是物理学家对自己有比内心的平安更高的要求。我对这个牧师说,我的理论不但能解释各种化石的年龄,我还能对尚未发现的化石做出预言,你的理论也能解释,可是你的理论能预言吗?
判断一个物理理论的好坏不在于这个理论是否符合人的直觉,或者是否够漂亮,而在于它能不能做出预言。
与哲学家们整天为了坚持自己的学派和“信念”跟人吵架不同,物理学家从不执着于任何一个物理理论,堪称最彻底的革命者。但物理学家也有一个可以称作“信念”的东西,这个信念就是世界应该是合“理”的。也就是说,物理定律应该适用于所有时间和所有地点,所有事件都必须精确地符合物理定律的数学方程。
正是这个信念使得物理学家可以不断地做出预言。如果有一个侦探发现1月1日有人被杀,2月1日又有人被同样的方法杀死,3月1日还有人被同样的方法杀死,他就会得出一个理论:罪犯在每月1日杀人。这个理论不但能解释过去的三起杀人案,而且能做出4月1日会有人被杀的预言。物理学家的思路与之类似,只不过对他们来说,4月1日必须有人被杀——不允许物理定律像犯罪一样有被停止的可能。过去,电磁相互作用和弱相互作用被认为是两种不同的力,而萨拉姆和温伯格在1967年用一个统一的理论把这两种力统一了起来。这个理论不但能解释已知的现象,还预言了在这个框架内必须存在的三个新粒子,后来果然被实验证实。反过来说,有人试图把强相互作用也给统一进去,结果得到了几个所谓的“大统一理论”(GUT)。这些理论都预言质子应该会衰变,然而目前为止所有的实验都表明质子就算真的会衰变,其半衰期也比任何 GUT 预言的都长,所以 GUT 就算再精妙也不能被接受。
既然所有事件都符合物理定律,上帝还有什么用呢?如果上帝不能违反物理定律(比如说制造奇迹),他存不存在还有什么意义呢?牛顿就提出了一种意义。
牛顿在解出行星轨道方程之后发现引力会对这些轨道做出扰动。而这种扰动一旦累积起来就会导致轨道的不稳定,使得行星或者坠入太阳或者脱离太阳系。据此,牛顿认为上帝必须存在,只有上帝才能时不时地对地球轨道进行微调,确保稳定。要不是拉普拉斯后来证明这种轨道扰动是周期性的,不可积累,物理学家大概也只好接受上帝存在的观点。
牛顿认为上帝必须存在的另一个理由则不需要他的直接干预,这就是地球在太阳系的位置实在是太幸运了。方程表明一个行星的轨道在一般情况下应该是椭圆形的,圆形是非常特殊的情况。如果地球轨道是椭圆形的,哪怕“椭”得不是特别厉害,其近日点和远日点的温度也将会非常不同,而不会有像现在这样一年四季温度相差不算太大的环境。而地球的轨道几乎就是圆的!地球四季的温差几乎完全来自自转和公转的倾角,而与距离太阳远近无关。地球的另一个幸运之处在于这个距离与我们这个太阳的质量正好搭配合适,哪怕太阳质量有20%的不同,地球也将因为过冷或者过热而不适合生存。牛顿考虑到这些巧合,认为这一定是上帝安排的,就好像一个连续买彩票中大奖的人认为这是上天的眷顾一样。要不是后来我们发现宇宙中有那么多的行星系统,其中有一个适合生存的也不算意外,物理学家大概也只好相信这个巧合是安排的。
相对于那些因为自己“信仰”无神论而否定牛顿的人而言,像牛顿这样的较真精神反而更了不起。现在,与牛顿遇到的这些问题类似的问题仍然困扰着物理学家。这些问题的特征就是我们这个宇宙实在太幸运了,差一点都不行!
第一个问题是宇宙起源的初始条件。天文观测和经典理论都表明宇宙起源于大爆炸,而量子引力学的进展则表明大爆炸比此前想象的要快得多,称为“暴涨”。对宇宙微波背景辐射非均匀性的发现证实了暴涨理论。然而要想实现足以形成我们这个宇宙的暴涨,宇宙起源的初始条件必须满足无比严格的要求。这就好像你要做一个炸弹,这个炸弹的形状必须是一个绝对精确的球形它才能实现预期的爆炸效果一样。除了上帝,谁还能准备这样精确的初始条件?
第二个问题是各种物理参数为什么如此地恰到好处。计算表明如果把强相互作用的强度改变0.5%,或者把电磁相互作用的强度改变4%,碳和氧这两个对生命至关重要的元素就不会出现;哪怕把质子的质量增加0.2%,它也会迅速衰变从而使得宇宙中根本不会有任何化学现象。另外,空间还必须是三维的,否则行星轨道就不会稳定。现代物理学无法从逻辑上解释为什么这些物理参数是这样的,就好像一个网络游戏玩家不能用物理定律解释某些超强 boss 的武力值一样,唯一的解释似乎是它们是被“设计”成这样的,否则这个宇宙或者游戏就不好玩。
霍金在书里给出了一个不需要设计者的解释。霍金首先用所谓的“无边界条件”来取消了“宇宙创生之前发生了什么”这个问题。即在早期宇宙的极端条件下,时间维被扭曲得好像一个空间维,也就是说那时候有四维空间而没有时间,也就不存在“之前”的问题了。进一步,早期宇宙处于量子态,而它的历史则是所有满足“无边界条件”的历史叠加的结果。一个量子的宇宙可以自发地诞生。
正如量子力学中的一个粒子可以有多种不同的状态,创世之后也可以产生多种不同类型的宇宙状态。每一个可能的宇宙中都有自己的一套物理定律和物理常数,我们只不过恰好生活在其中一个允许星系和人类出现的宇宙中而已。这个道理就如同既然有非常多的行星系统存在,我们恰好得到一个适合人类生存的地球就并不奇怪。
霍金在书里使用物理学的一些最新进展,比如M理论和他本人在量子引力方面的研究成果作为论据,给了这些大问题一个相当说得过去的答案。然而在专业的物理学家看来,这个论证很不严谨。书中用到的很多物理理论,比如说超引力,在数学上并不严格,更不用说M理论还远远没有得到实验证实。霍金的做法几乎等于宣称物理学家一直追求的“统一理论”已经成型,大问题的答案已经有了,可是很多物理学家不会同意他的看法,比如中科院理论物理研究所的李淼就不买账。
不过,霍金也解释了为什么M理论是最佳选择。首先,如果你的宇宙是一个连续系统,它的物理定律不随时间改变,那么其中必定能量守恒。其次,这个守恒的总能量必须等于零。这是因为如果能量大于零,宇宙就无法被凭空创造出来;而如果能量小于零,它就可以在真空中的任何地方出现。更进一步,既然宇宙的总能量为零,而在其中制造星球需要正的能量,那么它就必须包含引力,因为引力提供负能量。最后,这个引力必须用超引力理论来描述才能消除无穷大项,而M理论正是超引力的最一般理论。
霍金甚至提出了这套理论的一个预言:如果宇宙真是这样诞生的,那么在微波背景辐射中应该能观测到某种精微的特征,这种特征目前的观测手段还看不到,但将来或许可以看到。
物理定律必须处处管用,以至于上帝就算存在也无事可做;而一个好的物理理论必须不但能解释已知的现象,还能对未知的现象做出预言。这就是物理学的两个逻辑。霍金的学说显然符合第一个逻辑,只是不知道它能不能符合第二个。
摆脱童稚状态
中国民间有一个“七十三,八十四,阎王不请自己去”的说法,说在这两个年龄上的人更容易去世。这个定律从直觉上就不太可能是对的。我们设想,应该是因为孔子和孟子分别死于这两个年龄,人们认为这是人生中的两道大关,然后每当听说有人在这个年龄去世都会进一步加深印象,以至于总结了这个纯粹是错觉的定律。但有人不满足于直觉分析。
一篇网上流传的文章认为这是一个“科学家验证”了的规律:“科学家的回答是肯定的。”这篇文章说“科学家们经过了反复的研究”,发现“人的生命有一个周期性的规律,大致是7~8年为一个周期”,而73岁和84岁正是这个周期的低潮。我不知道这个周期学说是哪个科学家的理论,也许来自某人解读的《黄帝内经》吧。问题是,这篇文章把“能找到一个理论解释”,当成判断一个学说是否科学的标准——如果能用理论解释,它就是被科学验证了的吗?
绝学与证据
不管你用来解释的理论对不对,这都是一个错误的判断标准。能用理论解释的结论未必正确,不能用理论解释的结论未必错误。古代文人的思维习惯,是遇到无法判断对错的局面就查经典,想获得理论上的指导。而科学家的方法则要朴素得多:你直接用事实验证一下不就行了吗?我们根本不需要任何学派的任何医学知识,甚至不需要什么逻辑推理,只要随便找个死亡年龄分布数据就会发现73岁和84岁并不比其临近年龄更容易让人死亡。这个工作是如此简单,据说连北京电视台都做过。
古人说“为往圣继绝学”,很多现代人也追求用某种特定理论来指导实践,好像不用这个理论就对不起别人一样。科学家不从绝学出发,而选择从证据出发的根本原因不仅仅是科学尚未达到找到绝学的程度(物理学家仍未找到统一理论),更是因为就算有绝学也无法解决所有问题。就算我们完全知道人脑中每一个原子,进而到每一个大分子,进而到每一个细胞是怎么回事,也无法从中计算出心理学来——因为这是不同尺度上的问题,这种跨尺度的计算量大到了即使是科幻世界里也不可能的程度。
科学家强调事实。科学放弃了从一套最基本的哲学出发推导所有结论的尝试,改为在每一个领域内就事论事地搜集事实。有人指责科学家说你们相信现代科学理论难道不也是一种迷信吗?但科学家其实不迷信任何理论——很多情况下他们完全用不上什么绝学,唯一做的事情就是把事实搜集在一起,就好像集邮一样。只要有证据,反驳一个理论是非常简单的事情。
但是要想用证据建立一个理论,则要困难得多。只有运气好的时候,科学家才能在大量事实中发现一些有趣的规律,以至于可以向形成科学理论的目标前进一步。
相关性思维
最简单的规律叫作“相关性”。人是如此复杂的东西,我们根本没办法精密计算各种物质致癌的概率,比如说吸烟对肺癌的作用。科学家常用的是没有什么技术含量,不需要任何高科技仪器,更谈不上什么门派的办法:他们直接调查吸烟人群和不吸烟人群的肺癌发病率。
这种研究要把被调查的人分组,比如分成两组:得了这种病的患者一组(病例组,case),没有这种病的人一组(对照组,control)。然后考察这两组人在生活习惯、饮食、吃药方面有什么不同。如果你发现患有肺癌的人中烟民比例显著地高于没有肺癌的人中烟民的比例,你就得到了肺癌与吸烟的一个正的“相关性”。这个方法很简单,得到的证据却是强硬的。睡眠时间与判断力的关系,孕妇焦虑与小孩任性的关系,出生季节与平均寿命的关系——我们看到的大量科学新闻本质上都是相关性研究。
相关性研究只是科研的初级阶段。但就是这样它也已经超越了我们的思维本能。某些人只要被某地区生产的产品坑过一次,就会认为这个地区的所有产品都不好,他们的发现连相关性都算不上。我们每天看到铺天盖地的各种营养品的广告往往都能找到几个用户出来现身说法,可就是没有一个疗效相关性的数据。“一朝被蛇咬,十年怕井绳”,是人这种动物最自然的思维,而使用大规模统计发现实在的相关性这个最简单的科学方法,是我们摆脱童稚状态的第一步。
绝大多数人没有相关性思维。比如在一篇讨伐网瘾的文章中,作者援引“戒网专家”陶宏开的数据说:
中国80
%的青少年犯罪与网瘾有关,中国20
%的网瘾少年有违法犯罪行为。
在另一篇文章中则有人进一步指出:
济南在押的1500
名少年犯中,80
%的犯罪是“网瘾”造成的,北京更是有90
%的青少年犯罪案与“网瘾”有关。
我们能否根据这些数字得出结论说网瘾人群比没有网瘾的人群更容易犯罪呢?
不能。我可以构建这么一个国家,这个国家80%以上的青少年有网瘾,而这个国家的所有青少年,不管有没有网瘾,都有20%的犯罪概率。这个虚拟国家完美符合以上数据,但是它的犯罪与网瘾完全无关。实际上,如果你把“网瘾”改成“钱”,甚至“空气”,那么我们可以说“中国XX%的青少年犯罪者都缺钱/需要空气,中国YY%的缺钱者/需要空气者有犯罪行为”,而缺钱和需要空气不是毛病。
这个错误就是没有建立对照组。我们缺少的关键数据是没有网瘾的青少年的犯罪率,以及没有犯罪的青少年的网瘾率。这是一个非常常见的错误。这就好比说列举再多“发达的民主国家”,也不能说明民主与发达的相关性,你还必须统计那些不发达的民主国家、不民主的发达国家,以及既不发达也不民主的国家。
怎样发现因果
发现相关性,已经是一个足够发表的科学成就,但相关性结论并不能指导实际生活。假设我用无可置疑的统计事实告诉你“吸烟的人更容易得肺癌”,而你不想得肺癌,那么你能否推论出应该因此戒烟呢?
还是不能。因为你无法从“吸烟的人更容易得肺癌”和“肺癌患者大部分都爱吸烟”这两个统计中得出“吸烟导致肺癌”这个结果。也可能肺癌导致吸烟,比如说也许癌变的肺会使人对烟产生需求;也可能存在某种基因,这种基因会使得一个人天生就容易得肺癌,而这种基因同时还让一个人天生就喜欢吸烟;也可能吸烟的人往往是喜欢深夜工作的人,是深夜工作导致肺癌;也可能吸烟的人往往是经济状况比较差的人,其居住环境和营养不行,是贫困导致肺癌。
有相关性未必有因果关系,这是一个非常重要的思维。中国青少年网络协会和中国传媒大学调查统计研究所发布的《2009年青少年网瘾调查报告》是一份值得发表的研究,因为其中给出了一些明确的相关性数据,比如:
对自己学习成绩评价越不好的在校学生中,网瘾青少年的比例越高。认为自己“成绩较差”的学生中,网瘾青少年的比例达到28.7
%,认为自己“成绩一般”的学生中,网瘾青少年的比例为14.5
%。而自我评价“成绩很好”和“成绩较好”的学生中,网瘾青少年的比例均在11
%左右。
那么,根据这份报告我们能否得出结论说网瘾是个坏东西呢?
不能。也许并不是网瘾导致青少年成绩差,而是那些成绩差的青少年更容易得网瘾。报告没有统计网瘾与犯罪率的关系,但就算真的是越有网瘾的人群越容易犯罪,我们仍然不能说网瘾导致犯罪。比如我可以提出这么一个假说:
我认为网瘾是个好东西,因为它可以减少青少年犯罪。在任何国家的任何时候,都有一帮青少年对学习不感兴趣,整天无所事事。他们喜爱在街上游荡,都是潜在的犯罪者。因为网络游戏的出现,相当一部分这样的人被留在了家中和网吧里,他们的野性在游戏中得到了发泄,以至于减少了出去犯罪的欲望和时间。
报告和前面提到的所有统计数字都无法反驳我的这个假说。我甚至可以用这份报告支持我的假说。报告中提到一个有意思的统计是“在社会经济发展水平低的城市,网瘾青少年的比例更高”,这正好可以说明无所事事的人更容易得网瘾。
想要明确证明吸烟导致肺癌,唯一的办法是做实验。找完全相同的两组健康的人,让其中一组吸烟,另一组不吸,其他各方面生活都完全一致。20年之后如果吸烟组中的肺癌患者数高于不吸烟组,那么鉴于这两个组的唯一区别就是是否吸烟,我们就可以断定是吸烟导致了肺癌。
可是现实世界中根本不存在“完全相同”的两组人,这种理想实验无法进行。好在科学家有一个退而求其次的巧妙办法:找一群人,然后完全随机地把他们分为两组去做实验。在样本数足够大的情况下,随机性可以保证任何不同因素都大致均匀地分配到两个组里。这就是在关于人的研究中最重要,也是最可靠的办法。然而世界上不存在绝对完美的随机实验,比如为了让实验结果具备推广价值,样本应该尽量多样化,男女老幼、各种收入状况、各个种族都有才好、但这其实很难做到。很多实验心理学家选择的样本全是在校大学生,他们的结果能推广到所有人吗?有人对此讥讽说他们研究的心理学应该叫“大学生心理学”。
更大的困难在于,大多数情况下你不能拿人做实验,比如不能逼人吸烟。这时候就只能被动地集邮,而通过纯粹的被动调查来做研究的方法叫作流行病学(epidemiology)研究。最容易的流行病学研究是所谓回顾性(retrospective)的问卷调查:先找到病人,然后询问并比较他们的生活方式。这种调查的难度在于病人对自己以往生活的回忆常常不准确,甚至是有偏见的。他们可能会自己推断出一种病因,然后刻意地强调这种病因。就好像想要讨好医生一样,那些得了肺癌的人可能会夸大自己的吸烟史。一个更可靠的办法是前瞻性(prospective)调查。比如说科学家想知道核辐射对人体的损害,现在日本地震导致核泄漏之后哪些地区的哪些人受到了辐射是非常明确的,根本不用对他们进行问卷调查,自然也就没有偏见。有了干净的初始数据,科学家只要长期跟踪这些被打了核辐射标签的人群,再跟正常人对比,就可以知道核辐射对人体的影响。可是这里的困难就在于“长期”,核辐射的影响也许几十年才能看出来,那时候也许病人还没死科学家已经先死了。
比如“孕妇焦虑与小孩任性的关系”这个研究,唯一可行的办法就是流行病学研究,你不可能拿孕妇做实验。一篇2008年的论文是回顾性的,研究者找到一家治疗儿童多动症(ADHD)诊所的203个6~12岁的孩子,询问他们的妈妈怀孕的时候是否有过心理压力,结果发现怀孕时心理压力较大的妈妈,其孩子的症状更明显一点。这就是一个不太可靠的研究,有谁准确记得自己6年前的心态?多动症儿童的妈妈很可能会为了配合一个理论而高估自己当初的焦虑。
而一篇2011年的论文则是前瞻性的。研究者先锁定了澳大利亚某地的2900名孕妇,在怀孕的时候记录下离婚、搬家之类容易让人产生压力的事件。等她们的孩子长到2岁以后,再看其中哪些孩子有多动症。这个研究就可靠得多了,而可靠的代价是研究要进行多年。
要想从流行病学研究中发现因果性,就必须尽可能地统计各种影响因素。怀孕压力与小孩多动症的相关性数据并不能直接说明压力导致多动症——也许那些在怀孕期间离婚的女人本身生活就不靠谱,是她们的不靠谱导致了孩子的多动症。所以这两篇论文都统计了一些其他的因素,比如孕妇是否吸烟喝酒啊,怀孕年龄啊,收入状况啊这些数字,然后使用统计方法把这些因素考虑进去,最后的结果才更有参考价值。可是你不可能统计所有的可能性,实际上两篇论文统计的项目就并不一致。这就需要把一系列论文放在一起综合分析。
不管调查到什么程度,都只是对真实世界的管中窥豹。科学研究的是有限的真理。当一篇论文说什么东西可能或者不可能导致什么疾病的时候,它说的其实是在这次研究所调查的这帮人里面有这么一个结论。这个结论能推广到所有人群吗?记者一定比科学家更乐观。
科学的目标
得到因果性远远不是科学家的目标,科学不是一本写满什么东西会导致什么现象的菜谱。好的科学除了能证明因果关系,还必须有一个机制,得能解释为什么会有这种现象。比如二氧化碳增多导致全球变暖,其机制是二氧化碳是一种温室气体,它能够吸收从地面反射回空中的红外线,再把这个能量辐射出去,促使大气温度升高。
相关性思维和因果性思维只是思维方式的转变,科学研究的真正关键在于发现机制。你必须说明是吸烟导致肺变黑,而变黑的肺容易得癌症,还是烟草中有什么化学物质可以直接致癌(正确答案是后者)。机制提出来之后,这个机制中的每一步也必须是可以验证的,一个课题只有做到这个程度才算超越了集邮阶段。也只有到了这个程度,才真正谈得上把各种不同机制综合在一起建立模型去预测未来。
有时候这个过程会反过来,也就是用现有的机制理论推导一些现象,再去寻找证据证实。但探索未知最基本的科学方法是证据,然后谋求建立因果关系,然后是提出机制。仅仅是对其中一步做出很小的贡献,就可以发论文。大部分这样的论文事后会被证明没有太大意思,甚至是错误的。比如研究孕妇焦虑与儿童多动症的论文虽然有好几篇,但它们说的其实是一个非常微弱的效应,也许将来我们会发现儿童多动症的真正原理根本就不是孕妇焦虑。但科学就是这么一个不断试错的过程。
每一篇论文都是我们从个人感觉到客观事实,从客观事实到因果关系,从因果关系到能推广使用的机制这个过程中的一小步。这个过程的每一步都不是完美的,但只有这么做,我们才能摆脱童稚状态。
*
谨以此文标题纪念王小波。他曾经在这个标题下讲述过类似的道理。可惜大多数人只记住了他文章的结论和价值取向,而没有学会他使用的方法。
怎样才算主流科学?
“主流科学”在很多情况下并不是一个好词儿。科学记者眼中的主流科学界也许是一座可以威慑众生的殿堂,而对那些敢想敢干的年轻人来说,你跟他说主流科学认为这件事应该是这样的,他的第一反应是怎么证明这是错的。主流科学,在某种意义上是故步自封甚至以权压人的代名词。比如2011年诺贝尔化学奖得主谢赫特曼,在做出其获奖工作(发现准晶体)后相当长的一段时间内,就曾经饱受“主流科学”的打击。据新华社一篇文章报道:
他面对的是来自主流科学界、权威人物的质疑和嘲笑,因为当时大多数人都认为,“准晶体”违背科学界常识。“当我告诉人们,我发现了准晶体的时候,所有人都取笑我。”谢赫特曼在一份声明中说。
这个报道不能算说错。谢赫特曼本人的一个采访视频说的可能没有这么夸张,但仍然有点悲愤的情绪。准晶体被发现了,主流科学界却没有接受。既然如此,那么现在主流科学界拒绝接受的很多东西,将来是否也都有可能被证明是正确的呢?“主流科学”到底是不是一个贬义词?
本文试图通过仔细分析这个事件,来说明一个关于科学进步的道理。当然根据孤证不举的精神,你不能讲一个故事就说明一个道理,所以我们讲三个故事。
在谈论诺贝尔奖之前,我们先看主流科学是怎么让一个著名理论得不了奖的。
大陆漂移学说的故事
在《难以忽视的真相》纪录片的一开头,戈尔说了一件相当令人感叹的事。他说他六年级时候的一位同学,曾经在课堂上面对世界地图当场指出南美洲大陆似乎曾经跟非洲大陆是一体的。这其实就是大陆漂移学说,现在已经成了科学常识。然而戈尔上小学的那个年代这个学说还没有被“主流科学”接受,以至于他的老师立即告诉学生这纯属无稽之谈——根据戈尔说的戏剧性结局,后来这位具有非凡眼光的学生成了一事无成的毒瘾者,而老师却成了布什政府的科学顾问。
也许某些教育专家会痛心疾首地说:“你看,天才就这么被扼杀了。”可是如果你是一个科学老师,你会怎么样呢?不管别人提出什么新奇的想法,你都鼓励“是啊,这真是个有意思的想法,我认为它有可能是对的”吗?可是这样一来你所能提供的有效信息其实等于零。“一切皆有可能”,就是一切都不太可能。真正的科学家应该敢于直截了当地告诉别人哪些想法不可能正确——总统科学顾问更得有这个气质。哪怕最粗暴的判断,也比廉价的鼓励值钱。
早在1912年,也就是戈尔的小学同学出生之前,魏格纳(Alfred Wegener)就提出了大陆漂移假说,认为地球大陆最早是连成一片的。传说他也是看地图得到的灵感,但魏格纳并不是用小学生思维搞科研。除了各个大陆的形状看上去似乎能合在一起,他还有其他证据。一个很有说服力的论点是各大陆发现的古生物化石惊人地相似,乃至一些现代生物也是如此。鉴于这些生物不太可能渡海走那么远,唯一的解释似乎就是原始地球上这些大陆本是连在一起的。更进一步,人们发现几个不同大陆上有相同的岩石构造。不但如此,大陆漂移假说还可以解释一些此前人们想不通的问题,比如说南极大陆上为什么会有煤——要知道煤是古代植物累积形成的,南极那么冷怎么会有这么多植物?
面对这么多证据,一般人也许会认为大陆漂移是显然的。但科学家不是一般人。卡尔·萨根说:“超乎寻常的论断需要超乎寻常的证据。”(Extraordinary claims require extraordinary evidence.)生物化石最多只能算间接证据。而一个论断想要被科学界全面接受,除了要有超乎寻常的证据,还必须有一个机制。
关键是,科学家想不通大陆是怎么漂移的。比如分裂大陆需要极大的能量,这些能量从哪里来?魏格纳曾经提出几个假说,都被一一否定了。结果大陆漂移学说在半个世纪内都是被主流所否定的。一直到后来人们发现地质板块边缘火山喷发和地震可以提供能量,并且的确发现了火山曾经在不同时期喷发的证据,再加上其他证据,比如发现海底岩石比陆地岩石年轻,才以“板块构造理论”承认了大陆漂移。这时候魏格纳已经死了。如果今天论功行赏,魏格纳提出的东西只能叫作“假说”,甚至连科学理论都不算。
这还是听起来合理的理论。那些听起来不合理的理论,就算你有证据也不太容易被接受。当然,好消息是这样的理论一旦被接受,没准就是诺贝尔奖。
诺贝尔化学奖的故事
历史就好像《非诚勿扰》舞台上的女嘉宾。你离着很远看,和把她领回家细看,看到的东西都是真实的,但你可能会有不一样的人生感悟。新华社的报道相当简略。我们如果把谢赫特曼的讲话视频、一篇被广泛转载的英文报道、一个背景知识的介绍及以色列某杂志的一篇写得非常牛的长篇报道放在一起看,就会看到一个更有意思的故事。这个故事的每一步都值得深思。
谢赫特曼1982年在国家标准局的本职工作并不是去探索晶体科学的新突破,而仅仅是为航空工业寻找合金材料。不但如此,当时晶体理论已经相当成熟,什么样的原子对称结构能形成晶体是明明白白地写在教科书上的。人们根本没指望发现新的晶体形态,就算发现也轮不到谢赫特曼。
某天上午,谢赫特曼用电子显微镜测定了他自己合成的一块铝锰合金的衍射图像,发现是一个正十边形的对称结构——对寻常晶体来说这是一种不可能的对称性,因为从数学上很容易证明你不可能用正十边形(或者简化到正五边形)去周期性地铺满平面。谢赫特曼认为这是一种全新的晶体,它的特点就是只具有准周期性,也就是“准晶体”。
如果我们只看简单的新闻报道,下面的故事就是谢赫特曼跟每一个同事通报这个新发现,但是没人相信他,人们都认为晶体就应该是周期性结构的,实验组领导指着教科书说他胡扯,然后把他赶走了。但这里有一个问题:衍射图像是明摆着的,难道他的同事们连十都不会数吗?
事实上,同事们对他的这个衍射图像有一个解释:孪晶。人们早就知道孪晶可以出现类似正五边形旋转对称的衍射图像,但并不是一种新晶体。谢赫特曼进一步观察,他找不到孪晶,坚持说这是新晶体。现在的局面是同事们相信这种衍射图像有一个解释,谢赫特曼不接受这个解释。但不利的是,他也不能提供别的解释。
科学要求解释。你不能说“我看到这个现象,而你们解释得不对,所以它一定是个新东西”。全世界的实验室中可能每天都会产生一些看上去不太对的实验结果,它们中的大多数是……不对的。一个有个人荣誉感的科学家不会看到什么都发文章,你得给出一个理论。1983年,布勒希(Ilan Blech)帮谢赫特曼搞出了一个数学模型,两人这才决定发表论文,结果被APL
编辑拒稿。接下来谢赫特曼回到国家标准局,在卡恩(John Cahn)的帮助下进一步完善了数据,然后找到一位真正的晶体学家丹尼斯(Denis Gratias)入伙,最后文章被PRL
(《物理评论快报》,为美国物理学会主办的高水平学术期刊)发表。
到这一步,“准晶体”这个发现才算被正式提了出来。谢赫特曼在论文中详细说明了这个特殊合金的制备过程,使得很多实验组重复验证了他的发现。然而一直到这一步,仍然只有少数科学家接受这是一种新晶体。
关键在于,谢赫特曼实验使用的是电子显微镜,而晶体学界的标准实验工具是更为精确的X射线,他们不太信任电子显微镜的结果。不能用X射线的原因是生长出来的晶体太小。一直到1987年终于有人生长出足够大的准晶体,用X射线拍摄了更好的图像,科学家中的“主流”才接受了准晶体的发现。这才是真正的转折点。等到人们在实验室中又发现各种别的准晶体,乃至于在自然界发现了天然准晶体,准晶体就已经是绝对的主流科学,谢赫特曼也开始什么奖都能拿了。
回顾整个过程,我们并没有看到所谓“学术权威”在其中能起到什么打压的作用。的确有个两届诺贝尔奖得主至死都反对准晶体,但并没有听说他有什么徒子徒孙唯其马首是瞻。搞科研不是两个门派打群架。科学家之所以从一开始就质疑,恰恰是因为证据还没有达到“超乎寻常”的地步。而当X射线图像一出来,不管那个诺奖大牛怎么说,主流立即就接受了。
主流科学“打压”,一般不会上升到人身攻击的地步,除非你的理论侮辱了“主流科学家”。比如说要求他们洗手。
洗手的故事
19世纪40年代欧洲医院受到产褥热的困扰。1841年到1846年,维也纳最好的一家医院里,产妇死亡率居然达到十分之一,到1847年甚至是六分之一。青年医生塞梅尔魏斯(Ignatz Semmelweis)决心找到解决办法。他判断,当前这帮所谓的“主流医生”根本不知道是什么导致产褥热。有些医生声称他们知道,而且还头头是道地列举原理,但他们就是解决不了问题。
塞梅尔魏斯的办法是索性抛开主流医学,干脆直接上数据分析。通过大量统计,他发现一个最不可思议的事实:如果产妇在家里生产,她的死亡概率比去医院至少低60倍!哪怕最穷的女人,在街上生了孩子再被送到医院的,也没有得产褥热。这使塞梅尔魏斯怀疑导致产褥热的不是别的,正是医院。
塞梅尔魏斯所在的医院有两个分开的病房,其中一个主要由医生负责,另一个则是助产士负责,产妇则被几乎随机地分配到这两个病房。塞梅尔魏斯暗中统计,发现医生负责的病房,产妇死亡率是助产士负责病房的两倍。难道是医生让产妇得病的吗?他对这个问题百思不得其解。直到一个教授在指导学生解剖尸体的时候被学生的手术刀划到,然后患病死了,症状与产褥热相似,塞梅尔魏斯才获得灵感。他推测,是医生们离开解剖室直接进病房把致病的“尸体颗粒”(cadaverous particles)带给了产妇。
而当时医院无比热衷于解剖,病人死了之后立即送解剖室,这可能就是为什么之前的时代没有这么流行产褥热。
于是塞梅尔魏斯要求医生解剖后必须洗手,结果产妇死亡率马上降到了百分之一。
如果现在哪个医生能有这样的成就,说他是华佗再世也不为过,但塞梅尔魏斯的结局是直接被主流医生“逼”疯了。塞梅尔魏斯不能解释“尸体颗粒”是什么东西,当时的医学并没有微生物传播疾病这个概念。塞梅尔魏斯摆平了自己的医院,但其他医院的医生根本不买账,尤其反感他把病因归罪于医生。在塞梅尔魏斯看来这些医生是在迫害自己,他甚至自诩弥赛亚,最后居然得了精神病,死得很惨。
一直到20年以后,医学界才接受“微生物能传播疾病”这个理论。而塞梅尔魏斯?没人拿他当科学家,科学史只记载了发现微生物的人。顺便指出,一直到现在,医生仍然不怎么爱洗手,至少不如护士洗得多。
一个道理
在以上三个故事中,主流科学到底做错了什么?我的答案是什么都没做错。谁说对的理论一出来别人就得马上承认?
如果“主流科学”是一个人,他既不是仙风道骨的中国世外高人,也不是充满圣洁光辉的西方牧师,更不是温柔妩媚的小姑娘。他是一个淳朴实在的中年汉子。他认为任何事情背后都必须有明确的答案,明确到他可以把这答案原原本本地写在纸上让你看懂。他从来不让你“顿悟”,他从来不让你“信则灵”,他从来不让你“猜”。他有什么说什么,不跟你打机锋,不跟你玩隐喻,不跟你玩暗示。他不敢肯定自己的答案一定正确,但他敢用最明白的语言跟你辩论,一直说到你服为止。
或者你把他说服。科学研究是一个充满争论的过程。科学家要是不争论,科学就死了。比如几年前有实验号称发现了超光速中微子,就引起了科学家的巨大争论,有人甚至提出各种理论解释,最后被证明不过是实验错误。统计出来的东西尤其不能作为成熟理论,而只能作为科学研究的缘起。科学研究就是这么一个把新思想逐渐变成主流的过程。从这个意义上讲也许真正活跃的科学根本就没主流,或者说主流科学都是死的科学,更严格地说是凝固了的科学。
怎样才算主流科学?你必须能用现有的理论去解释你的新理论。如果主流科学是一棵大树,你的新理论不能独立于这棵树之外。你必须告诉别人这棵树的这几个位置可以长出这么几个树枝来,而这些树枝可以连接到我的新理论上去——这样你的理论就成了这树的一部分。有时候你甚至可以宣布某个树干的真实形态其实不是人们之前想的那样,但你不可能宣布这棵树整个长错了。
凯文·凯利(Kevin Kelly)在《科技要什么》(What Technology Wants
)这本书里提到,早在哥伦布去美洲之前,美洲大陆就已经有人了,可是为什么我们说是哥伦布“发现”了美洲呢?因为是哥伦布把美洲大陆这个知识和人类科学的“主流知识”联系在了一起。“孤岛式知识”是不行的。
只此一家,别无分店。什么新东西都得从我这儿长出去,这就是科学的态度。这种态度干掉的错误想法比正确想法多得多,比如“水变油”、永动机、黑洞发电之类。只有这样的态度才能建立一个高效而严谨的学术体系。也只有这个体系才能确保一个实验结果可以经得起在任何时间任何地点的重复,一个技术可以随便复制使用,既不要求使用者道德高尚、人格完美,也不要求他掌握什么不可言传的心法。
如果经络和“气”能用实验证明,诊脉能机械化,阴阳运行能用数学方程描写,一直到《伤寒论》能出一个基于现代医学的解释版,那么中医就可以成为主流科学。将来谁能做到这些,谁就“发现”了中医。也只有这样,中医才能抛开掌握绝学的少数老师父,变成像青霉素那样任何一个医院都能随便使用的有效技术。
如果主流科学真是小姑娘的话,向她求婚并得到许可并不容易。有时候可能你是对的,但她就是不理解,你悲愤也没用——可是你也不能因此就说她不是女人啊。
科研的格调
《生活大爆炸》是个很有意思的美剧,它说的是四个年轻物理学家的故事——或者说是他们的泡妞故事,如果你乐意的话。现在物理学家似乎正在变成令人感兴趣的人群,套用剧中伦纳德(Leonard)的话,简直是“我们是新的阿尔法雄性(we are the new alpha males)”在四位男主角中,最有意思的是谢尔顿·库珀(SheldonCooper),我猜别人也会这么想。
谢尔顿非常聪明,而且他处处要告诉别人他非常聪明。物理学家聪明很正常,但谢尔顿还非常博学甚至无所不知,他号称对世界上所有重要的事情都有可应用级别的知识(working knowledge)。这种人存在吗?《新京报》曾经就这个问题采访过该剧的物理负责人,答案是有些物理学家就是这么博学。
比如说因为夸克理论获得诺贝尔物理学奖的盖尔曼(Murray GellMann)就是这样的人。我认为盖尔曼是谢尔顿的原型。第一,盖尔曼曾长期待在加州理工学院,只不过他的职位是教授而谢尔顿是博士后。第二,盖尔曼非常聪明,而且处处要告诉别人他很聪明。比如他喜欢用外国当地的标准发音来读一个外国人名或地名(好吧,我承认这一点似乎更像剧中的霍华德)。这个逼着别人承认不如自己聪明的毛病使得盖尔曼和谢尔顿一样不受周围人的欢迎。第三,盖尔曼非常博学。比如说,所有物理学家都知道彩虹是怎么回事,很多物理学家知道是笛卡尔第一个科学地解释了彩虹,但如果你想知道古人怎么看彩虹,你得问盖尔曼,盖尔曼会告诉你各个古文明对彩虹的解释。
我甚至觉得谢尔顿的长相也有点盖尔曼的“意思”。我还真找到一张盖尔曼年轻时的照片。
(左边是盖尔曼,右边是谢尔顿)
但本文真正要说的是盖尔曼和谢尔顿的第四个共同点:两人都看不上,甚至可以说看不起,理论物理之外的任何科学。
谢尔顿的姐姐有一次说,她很自豪谢尔顿是个“rocket scientist”。注意这里面有个典故,英文中“rocket science”(火箭科学) 是个成语,指任何特别复杂的东西。比如你想说什么东西很简单,就说这个东西不是 rocket science.
但谢尔顿认为被当成“rocket scientist”是一种侮辱。他说你还不如说我是金门大桥上的收费员。在谢尔顿看来,理论物理学家比火箭科学家要高级得多。
盖尔曼也是这么想的。在盖尔曼看来,纯粹的理论物理,也就是说专门研究基本粒子相互作用、超弦理论这种理论的物理,是最高级的科学。因为这种科学研究的是世界的最基本定律,而其他所有学科只不过是应用这些定律而已。
《费曼的彩虹》这本书生动地形容道,盖尔曼这种纯理论物理学家看其他学科,就如同站在曼哈顿往西看整个美国。新泽西地区相当于其他的理论物理工作,中部相当于实验,而再往西一直到加州,则到处都是中国城之类完全没格调的东西,相当于各种应用科学,比如说半导体之类。
物理学的格调比化学高,就如同福赛尔的《格调》说网球的格调比足球高一样。盖尔曼就是这种人。《费曼的彩虹》的作者当初也在加州理工学院当教员,本来是想做超弦的,办公室就在盖尔曼隔壁。结果他后来改做量子光学,盖尔曼立即打发他去别的楼层办公,把办公室腾出来给自己的研究生用。此书作者还曾经尝试写剧本,立即被自己的研究生导师鄙视,因为他认为好莱坞都是垃圾,剧本的格调还不如小说。
我想看到这里,很多读者要愤怒了。(免责声明:我是做物理的,但我并不是做理论物理的,所以我也不在曼哈顿——如果这可以让你好受一点的话。)
其实这种格调也许并不存在。盖尔曼在加州理工学院的死对头费曼就不赞成这个态度。费曼对所有物理领域都感兴趣,他从来不认为量子光学是比量子色动力学低一等的科学。
其实盖尔曼和费曼对其他学科态度的不同,一个原因是他们的科学理念不同。盖尔曼这一派的物理学家追求逻辑和数学的完美,在他们眼中所有学科是以理论物理为核心的金字塔形。而费曼则有一点实用主义,他最关心的是怎么解释自然现象,而不怎么追求数学上的完美。费曼说,为什么非得追求一个统一理论?也许自然就是给四种力四个理论。我想费曼眼中的科学世界不是金字塔,而是一个各连接点互相平等的网络结构。
但费曼的确认为物理学比小说要难。因为小说的想象不需要负责,而物理的想象需要一个实验来判决。不管你多么喜欢你的理论,跟实验不符就是不行。
实际上,费曼鄙视很多东西。费曼极度鄙视哲学,连他的秘书都知道千万别跟费曼谈哲学。费曼还一度强烈鄙视超弦(但在最后时刻还是跟盖尔曼学了一点超弦)。另外,我们已知的还有费曼鄙视心理学,认为心理学全是扯淡。
我的问题是,既然所有学科中都有“道”,盖尔曼的格调论和费曼的鄙视,是合理的吗?
我认为它们是不客观的,但是有道理的。因为一个人如果对所有东西都感兴趣,他将无所适从。也许要想干好一行,就必须爱这一行。而爱这一行,就意味着“不爱”其他行。所以一个科学家应该学会从心理上“鄙视”自己专业以外的其他学科。
科学本身是客观的,但科学家都是主观的。最好的科学家甚至可能是极度主观的。有爱恨,才是真正的科学家。敢说不,才是真正的科学家。
最后欢迎化学家们给自己找一个充分的理由来鄙视物理学。
喝一口的心理学与喝一瓶的心理学
我有时候特别羡慕“实验心理学家”和“行为经济学家”。他们常常能以非常直观的逻辑,在大学里找一帮学生受试者做一些特别方便的“实验”,写成一篇简明易懂的论文,证明的不过是一个显而易见的结论,然后还能经常发表在《科学》之类的顶级刊物上,并且被媒体和博客大肆报道。相比之下,物理学家们就算投入几百万美元做实验,加上外行根本看不懂的理论推导,且得出了并非显而易见的结论,也未必能确保一篇PRL
和15分钟的名望。
比如2007年《科学》上有一篇被报道了无数多次的论文,Are Women Really More Talkative Than Men?(女人比男人更健谈吗)研究的问题是人们都说女人话比男人多,多吗?这篇文章的研究方法是在8年的时间跨度内选取了6个大学,每个实验进行4~10天,总共考察了男女共396名大学生,让他们只要是清醒的时候就佩戴一个录音机记录所说的话。这样直接统计的结果是女生平均每天说16215个词,男生每天说15669个词,相差7%,因此女生似乎并不明显比男生唠叨。我对这个研究的评论是如果一个物理学家这样搞科研的话早没工作了。就算给他们8年时间,他们都不知道重点考察中年以上妇女。
但是人们就是喜欢心理学。本文并不是为了抒发怨念,其实我也喜欢心理学——我从来不在博客上谈论自己写的论文,却经常谈论心理学实验。本文要说的是这些心理学实验的一个重大弊端。
最近中文媒体上流传非常广泛的一个心理学实验是德国人做的,说护身符的确能给人带来好运,因为这是一种积极的心理暗示。这个研究的方法是:
在德国科学家进行的一场实验中,数十人被叫来进行一场高尔夫比赛,其中一半人被告知使用的是在多场比赛中给选手带来好运的幸运球,而另一半人则被告知使用的只是普通球。比赛结束后,科学家发现使用幸运球的选手的击球入洞率要比使用普通球的选手高出近40
%。
首先这是心理学实验庸俗化的一个典型例子,因为关于积极心理暗示效应的实验早就数不胜数,比如在《怪诞行为学》这本书里就介绍了好几个。其中一个说传统上人们都认为亚洲学生数学好,而女生的数学不好,那么亚洲女生呢?在实验中找一帮亚洲女生分成两组做数学测验。测验前对其中一组的心理暗示是强调她们是亚洲人,另一组则强调她们是女生。结果果然,第一组的成绩好于第二组。
另一个更有意思的实验则在考试之前向学生卖 SoBe 饮料(这是一种比较贵的饮料,我喝过,味道倒在其次,瓶子做得挺好),只说这个饮料可能会有效果,但不一定是对脑力有好处(其实没好处)。结果那些拒绝买和花全价买了 SoBe 的学生在测验中成绩相同,都是15道题平均答对9道,而那些被允许以一个折扣价买了这饮料喝的学生则平均只答对了6.5道。
据此,我们是否应该佩戴护身符,应该在参加数学考试之前提醒自己是个亚洲人,并且千万别喝减价饮料呢?很可能不是这样的。
这些实验的弊端在于只做一次,而且还是在实验室里。如果让那些受试者每天都来参加这种考试,每天都用幸运球比赛,积极心理暗示还有用吗?
蒂姆·哈福德在《谁赚走了你的薪水》(The Logic of Life
)这本书中介绍了一个在我看来重要得多的实验。在实验室里,受试者们分别扮演雇主和雇员,实验发现如果雇主给雇员比标准工资高一些的工资的话,雇员也会自觉地干比标准要求多一点的活儿。实验结论显然是,意外的涨工资会带来员工更努力工作的善意回报。但这一次经济学家并没有满足于此!
他们决定把实验在生活中再做一次。他们在报纸上刊登广告招来一批工人,然后随机地给其中一些工人比广告上说的更高的工资。一开始似乎验证了实验室的结论,那些获得意外高工资的人的确干得更加卖力——然而这种卖力只持续了不到半天。半天之后,所有的工人都只干他们“该干”的活了。
这个实验使我想起百事可乐与可口可乐之争。这两种可乐的味道非常接近,但如果你仔细品的话,会发现百事可乐更甜一点,而可口可乐略带一点酸味。可口可乐公司曾经做过实验,在不公布品牌的情况下把这两种可乐倒在小杯里,找一帮受试者品尝。结果是大多数人认为百事可乐更好喝。
在实验结果的刺激下可口可乐决定改良配方,使得味道更像百事可乐,结果是惨遭失败!消费者抗议新配方。怀旧因素之外,一个重要原因在于在实验室里喝一口和拿回家去喝一瓶,感觉是两码事。如果只喝一口的话,可能很多人认为汽水比茶好喝。
目前大多数的心理学实验,是“喝一口的心理学”,而不是“喝一瓶的心理学”。佩戴护身符的第一天也许会充满正面的情绪,第二天可能就不好使了,时间长了反而成为累赘,一天不戴可能还会恐慌。所谓“积极心理暗示”,其关键也许就在于让受试者感到新鲜。
那么,如果一个人每天都能想象到一个不同的“积极心理暗示”,总能变着法地鼓励自己,他是否会在长期尺度上比别人做得更好呢?我猜每个人都会有自己的看法,为了把这些个人看法变成无可争议的结论,我们需要的还是,设计得非常合理的心理学实验。从这个角度说实验心理学毕竟还真有可能是一门科学.
医学研究能当真吗?
转基因食品无害。地震不可预测。干旱气候与三峡大坝无关。我们非常关心这些问题,科学家似乎明确地给出了答案,可是仍然有人无所适从。我们应该听科学家的吗?但科学家肯定也会经常说错。有时候他们说手机辐射可以导致脑癌,有时候又说这种效应根本没有足够的证据。有时候他们说大蒜可以降低有害胆固醇,有时候又说大蒜其实不能降低有害胆固醇。在这种情况下,你应该怎么办呢?
(a)
以最权威科学家,比如诺贝尔奖得主或者《自然》上的论文的意见为主。
(b)
以科学家中的“主流意见”(如果“主流”真的存在的话)为主。
(c)
以最新发表的意见为主。
(d)
别当真,科学新闻可以当娱乐新闻看。
如果这条新闻说的是医学研究,那么最理性的选择是……(d),别当真。那些写在晚报副刊上的各种所谓健康指南,连看都别看。而那些刊登在主流媒体上,有最新的论文支持的科学新闻,比如说英国某个团队又发现什么东西对儿童的智力有新影响,我们大概可以看,但是看完就可以直接把它忘了。
更进一步,如果这条新闻说的是营养学研究,比如吃某种维生素对身体有某种好处或坏处,那么哪怕是发表在最权威的医学期刊上的那些高引用率论文,也应该全部忽略。
说这句话的人叫埃尼迪斯(John P.A.Ioannidis),他是斯坦福大学预防医学研究中心主任。埃尼迪斯说“全部忽略”(ignore them all)。他攻击的不仅仅是营养学,而是整个医学研究。2005年,埃尼迪斯发表两篇论文,证明大部分医学研究都是错的。这两篇论文在医学界被引用了好几百次,但是没有人说他这个看似无比偏激的结论是错的。甚至没人表示惊讶。所有搞医学研究的科学家都知道这个秘密:医学研究根本不靠谱。
但是这件事一直到2010年年底才引起公众的关注。首先是《大西洋月刊》发表充满愤怒的长文,标题采用英国首相和马克·吐温发明的著名句式:《谎言,该死的谎言和医学研究》。《时代周刊》立即跟进,并把结论进一步精简为“90%的医学研究都是错的”!《时代周刊》这篇报道说,现在已经有人开始真正认真地重新审视整个医学科研,而且立即发现了几个与我们此前的知识完全相反的结论,比如:
· 没事儿自己检查乳房,不但不会降低乳腺癌的死亡率,没准还有坏处。
· 其实科学家并没有足够证据说注射流感疫苗对防治流感有效。
由埃尼迪斯两篇论文引发的这场医学暴动仍在进行之中。2011年1月的《新闻周刊》报道,又有两个医学常识被干掉了:
· 不仅仅是大蒜,如果服药者本人没有心脏病史的话,就连那些专门的降低胆固醇的药,其实都没什么作用。
·“补钙要加D
”纯属扯淡——我们几乎每个人都已经有足够多的维生素D
,根本不需要从钙片和善存片里获得。新的报告说,一般人可以从阳光中(白人每天日照5
分钟,有色人种15
~20
分钟)获得维生素D
,而少数青春期女生和老人也许需要从食物中补充一点。
所以《新闻周刊》有充分的理由把这篇报道的标题定为《为什么几乎所有你听说的医学都是错的》。科学新闻常常教育我们要用现代医学的常识去反驳民间偏方,用科学家的论文去反驳普通人的常识,再用欧美科学家的论文去反驳中国科学家的论文。然而埃尼迪斯说欧美科学家的论文其实也不可靠,错误率是90%?民间偏方没准还比这个好点。所以以上这几篇报道大概也有点标题党,我们必须看看埃尼迪斯到底说了什么。
他一篇发表在PLoS Medicine
上的文章说,在医学研究中被广泛使用的统计方法,其实是个非常脆弱的体系。如果你的一项研究是考察某种药物对人的健康是否有好处,而你希望能证明有好处的话,你将很容易做到这一点。首先,现在大部分医学研究的效应其实都是比较微弱的,因为不微弱的效应别人早就研究完了。其次,什么是对健康有好处?也许一个病人的病情并没有什么明显好转,但因为你希望这个药物有效,你也许会完全无意识地刻意去寻找他好转的证据,你可能会把本来没什么好转的病人当成好转的病人。这就是你的偏见。埃尼迪斯这篇论文其实全是数学,他做了一番计算,说如果这个微弱效应有10%,而你的偏见有30%的话,你的实验得到正确结论的概率只有20%。
科学家是有偏见的。他可能因为拿了医药公司的资助而希望证明一个药物的疗效,他更可能为了能发表有轰动效应的论文而追求惊人的结果。鉴于10%的效应率和30%的偏见率差不多就是一般流行病学研究的水平,我们大概可以说80%的流行病学研究都是错的。根据同样的计算,小规模随机实验的可信性也只有23%。埃尼迪斯这篇文章就是用数学方法证明这种偏见有多可怕。
光玩数学当然不行,批评现实得有真实证据。这正是埃尼迪斯另一篇论文要完成的任务,它发表在权威期刊JAMA
(美国医学会杂志)上。没有人能把所有医学论文都研究一遍,所以他的做法相当具有戏剧性:他只看1990年到2003年间发表在顶级临床医学期刊上的顶级论文,入选标准是被引用超过1000次。符合这个标准的论文一共有49篇,其中45篇声称发现了某种有效的药物或者疗法。
我们都知道科学结果必须都是可重复的,我们不知道的是有多少科学结果真的被人重复过。这45篇论文虽然都被引用了千次以上,但其中只有34篇被重复检验过。
而后人检验的结果是其中7篇的结论是错误的。比如有一篇论文说维生素E对降低男子冠心病风险有好处,有一篇论文说维生素E对降低女子冠心病风险有好处,而后来的大规模随机实验则证明维生素E对降低冠心病风险根本没好处。另有7篇论文被发现夸大了有效性。也就是说34篇经过检验的论文中的14篇(41%)被发现结论有问题。这45篇最权威的论文中只有20篇接受了并扛过了时间的考验。
顶级论文尚且如此,一般论文又能怎么样呢?真有90%都不可靠吗?我从未发现埃尼迪斯说过“90%的医学研究都错了”这句话,《时代周刊》的报道的确是标题党。
埃尼迪斯说的不是90%,而是431/432。没有人能彻查所有医学论文,所以埃尼迪斯的做法是选择一个热门领域,彻查这个领域内所有的论文。这个领域是研究男女患各种疾病的风险不同,是不是因为基因的影响。在2007年JAMA
的一篇论文中,埃尼迪斯与合作者找到这个领域的所有77篇论文,然后逐篇分析这些论文处理数据的方法是否足够严谨。这些论文一共提出了432个论断,其中只有60个论断可以称得上是方法严谨。而这60个拿得出手的论断中,曾经被其他研究至少重复验证了两次的,只有1个。
如果我们对正确科学论断的要求是方法严谨、结果至少经过两次检验,那么这个领域的合格率只有1/432。如果我们放宽要求,只要一篇论文不被证明是错的,就算它是好论文,那么发表在最权威期刊上的被引用次数最多的医学论文中,有7/45是坏论文。
这7篇坏论文中的两篇说维生素E可以降低冠心病风险,而事实上,后来2000年《新英格兰医学杂志》上就有文章用超过9000人的严格随机实验证明维生素E根本不能降低冠心病风险,这一结论从此之后再也没被推翻过。那么到底有多少科学家知道这件事呢?埃尼迪斯等人曾经专门调查了到底有多少论文还在使用“维生素E降低冠心病风险”这个错误知识,结论是一直到2005年,仍有50%的新发论文还在引用前面那两篇错误的顶级论文,并且以为它们是对的。
如果你现在随便找个中国医生问他维生素E是否对降低冠心病风险有好处,我敢打赌他说有好处。我在谷歌搜索“维生素E冠心病”,第一页的结果全是说有好处,它甚至已经作为常识进入各种医学网站。
肯定有人因为看了2000年之前的新闻报道而大吃维生素E来降低冠心病风险。肯定有人还在吃大蒜降胆固醇。肯定有人还在补钙加D。
把学术论文的结论推广为真实世界的真理,有时候是非常危险的事情。因为不理解科学研究的思维方式,导致大多数人对科学有两个重大误解:第一,认为科学研究得出的是绝对真理;第二,认为每一项科学研究都是在生产我们日常决策的答案。真实的科学研究其实一个充满曲折,甚至有时候错进错出的过程。
更重要的是,科学的野心其实比公众设想的小。而恰恰是因为这个原因,科学才有这么强大的力量。很多论文不严谨,甚至很多都是错的,这并不表明科学中没有正确答案,它只是表明得到和判断正确答案并不简单。
科学报道都是用人类传统语言写成的,而科学研究使用的却不是传统的人类语言。所谓“科学方法”,其实是另一套很不一样的思维方式。今天医学研究的无奈现状并不见得就说明科学方法不行。科学方法,是一种超越了人类本能的思维方式。一个简单的问题是我们凭什么相信“维生素E不能降低冠心病风险”这个结论就是对的?因为有些科学方法比另一些科学方法更可信。看新闻不如看论文,看一篇论文不如把多篇论文综合在一起看(称为 meta-analysis),而且有时候这么看还是不行。现代社会中的智者,应该掌握这一套思维方式。
科学是成年人玩的东西。我认为抱着谦卑的情绪去“仰望科学”是个错误的态度,正确的视角应该像下棋一样,是俯视。
*
其他医学研究者并没有对埃尼迪斯揭示的现状无动于衷。有一个成立于1993年的叫作考科蓝协作(Cochrane Collaboration)的国际组织,就正在专门严格审视各种医学研究,并且推出了很多报告,而且他们也采纳了埃尼迪斯提出的审查方法。这个组织特别强调经费只来自政府、大学和私人捐款,而不拿医药公司的钱。
真空农场中的球形鸡
美剧《生活大爆炸》曾经讲过一个好多观众没听懂的笑话。说有一个农民发现自己养的鸡都不下蛋了,于是他找了一个物理学家帮忙。物理学家做了一番计算之后宣布我已经找到了一个解!但是这个解只对真空农场中的球形鸡有效。这个笑话的意思是物理学家使用了一个过分简化的模型去模拟真实世界。
更有效的模型大概需要考虑在空气中传播的病毒对存在空气的农场中的有下蛋器官的鸡的影响。但不管你使用什么模型,你必须得使用一个模型。任何科学研究中的任何计算都是针对科学家选择的模型的,而不是针对“真实世界”本身。
有时候简化的模型已经足够好,比如我们要计算天体运行的轨道,把任何恒星和行星都简化为没有体积的质点就可以了。有时候是不得不简化,比如说如果要模拟全球气候,大概要考虑洋流运动和南北极冰川的影响,那么要不要考虑云的变化?要不要考虑太阳黑子的影响?要不要考虑植物分布的影响?要不要考虑冰岛火山爆发、喜马拉雅山脉、贝加尔湖、三峡大坝和中国春运的影响?在有限计算能力下不可能都考虑。但世界的复杂性并不是我们必须使用模型的本质原因。
我们必须使用模型的本质原因是,我们对世界的观察是主观的。霍金和蒙洛迪诺在《大设计》这本书里讲了一个金鱼的故事,说意大利蒙扎市禁止在弯曲的碗状鱼缸里养金鱼,因为从弯曲的鱼缸往外看会看到一个扭曲了的现实,这对金鱼“太残酷了”。对此霍金提出了一个庄子式的问题:我们又怎么知道我们看到的现实不是扭曲的?金鱼仍然可以对鱼缸外部的世界总结一套物理定律。也许因为坐标系弯曲,金鱼总结的物理定律会比我们总结的要复杂一点,但追求简单只是个人品位,金鱼的物理学同样正确。
从这个角度说,所有物理定律,乃至所有科学理论,都只不过是主观模型。托勒密的理论说地球静止,太阳绕着地球转;而哥白尼的理论说太阳静止,地球绕着太阳转——这两个模型其实都可以用,只不过其中一个比另一个更好用一点。
物理学革命其实就是用一个模型取代另一个模型。我们可以把力解释成一种波动的场,或者空间的弯曲,或者一堆粒子的来回传递,或者又把各种粒子解释成弦的震动。当物理学家发明这些模型的时候,他们心里想的并不是“真实的力到底是什么东西呢?超弦理论符合我的世界观吗?”这种哲学问题,他们想的是什么模型有效就用什么模型!
也许与模型无关的“现实概念”根本就不存在,霍金把这个思想叫作“依赖模型的现实主义”(model-dependent realism)。这听上去有点像中国人说的“道可道非常道”,又有点像《论语》里面每次有不同的人问孔子“仁”是什么,孔子都给一个“依赖提问者的仁的定义”。但实际上这里面说的是科学这门业务的工作方式,是从来不直接追求那个“最后的、真正的现实”,而只是不停地用不同的模型去模拟现实。
也许有些科学家的确相信绝对真理的存在,但科学研究从来不涉及绝对真理。哲学才研究绝对真理。科学研究的是“有效的真理”,是“有限的真理”。两个古代哲学家坐在那里谈论“天道”,说来说去只能是空对空。科学方法的第一个智慧就是我不直接用心去跟“天道”对话,我做几个实验,总结几条规律,形成一个不求“天道”但求有效的“模型”。
所以当一个科学家说一个真实世界中的什么东西会发生什么情况的时候,他说的实际意思是在他使用的那个模型里,这个东西对应的变量发生了什么状况。他说的是真空农场中的球形鸡。
在所有科学模型中理论物理是最成功的,而且成功到了不可思议的地步。量子电动力学并不是物理学家关于世界的最新模型,它把各种基本粒子都简单地当作球,完全不考虑原子核内部的相互作用,没有引力,但它却是一个相当完美的模型。它只用非常简单的几个方程,就能够描写原子核和引力之外的几乎所有现象,而且这个模型无比精确。费曼曾经在一本通俗读物里自豪地写道,量子电动力学计算的电子自旋磁矩是1.00115965246个玻尔磁子,而实验测量的值是1.00115965221,这个误差相当于横跨美国东西海岸,计算从波士顿到帕萨迪纳的距离,结果只差一根头发丝那么细。
我们可以无比准确地预言每一次日食,可以拦截导弹,甚至可以用遥控方法把探测器精确地放置在火星表面指定的地点。这些并不完美的物理模型是如此的足够完美,有些人错误地以为科学就应该提供精确的答案。但事实是很多重要问题的模型根本做不到这一点。2008年金融危机给人的印象就是所有正规经济学家都没有预见到。格林斯潘说:“我们都错误判断了这个风险。所有人都没想到——学术界、联储、监管者。”一时之间批评经济学成了时尚,很多人认为经济学根本不能算科学。
我不知道经济学模型算不算科学,但的确有正规经济学家,在不使用阴谋论的情况下,预警过这场金融危机。去年,2500名经济学家投票选出了对这次危机的最好预测:史蒂夫·金(Steve Keen)早在1995年就搞了一套理论模型,并且从2006年开始使用这个模型每月发布预警报告;鲁里埃尔·鲁比尼(Nouriel Roubini)在2005年就指出美国房价会在3年内跌30%;而迪恩·贝克(Dean Baker)则从2002年开始反复说房价是个泡沫。我们可以看到,这些预测是有限的,不论是金融危机的规模还是爆发时间,它们都远远谈不上准确。
无论如何,嘲笑经济学模型是从事“硬科学”的科学家,甚至是所有学者最爱干的事情之一。看完《金融时报》上一个历史学家嘲笑经济学家的文章之后,一个物理学家笑了。他说我看经济学模型还算好的,气象模型还不如经济学模型。经济学家至少知道模型里面“经济人”是什么东西,而气象学家根本不知道气象模型里的云和海洋混合(ocean mixing)是怎么回事。
他说的是关于模型的重大问题:如果你根本没搞清楚所有的原理和机制,你做的简化距离真实世界非常遥远,你的模型还有意义吗?物理学家弗里曼·戴森(Freeman Dyson)认为没意义。他说:
我没有气象学位,所以我大概没资格谈论这个话题。可是我也研究过这些气象模型,我知道它们能干什么。这些模型对大气和海洋的流体力学方程可以解得很好,但是它们对云、尘埃、地表和森林中生化过程的描写很差。它们根本谈不上描写我们生活的这个真实世界……这就是为什么搞气象模型的这帮人只不过是自己相信自己的模型而已。
那么IPCC(国际气候变化委员会)怎么评价气象模型呢?在2007年报告的一个FAQ(常见问题解答)中,IPCC 表示它对这些模型非常自信。但是在我看来,这份文字写得有点不够意思。IPCC 说这些模型的基本原理是建立在动量能量守恒之类的基本物理定律上的,而且还有大量观测事实作为支持。它没说的是模型的“非基本原理”,比如戴森说的那些东西,是怎么处理的,更没说这些非基本原理能起到多大作用。IPCC 还说这些模型能够成功地模拟当前气候,而且还成功再现了过去100年的气候变化。没错,但IPCC没说的是这正是那些“大量观测事实”支持的结果,是用这些观测事实调参数凑答案的结果(叫作“parameterization”),这些模型在很大程度上是基于经验的。
其实,调参数没有什么不对。根据“依赖模型的现实主义”这个精神,你怎么就能说基本物理定律不是基于经验的呢?气象学家可能的确不怎么理解云,但难道物理学家就敢说自己真的理解电子吗?所以我认为戴森的批评等于说黑猫肯定不如白猫,并不重要。重要的是气象模型预测未来的能力怎么样。
有一个关于天气预报的笑话是这么讲的。有人打电话到电台问你们每天预报的降雨概率到底是怎么算出来的,主持人回答说我们一共有10个预报员,每天投票预报,如果有3个人认为会下雨,我们就说降雨概率是30%。IPCC 预测未来的办法跟这个有点类似。一个最常用的办法,是把各个不同气象模型的结果综合起来取平均值。比如把12个国家的17个研究组使用的24个模型的结果取平均值。
下面这张图来自IPCC网站的那个FAQ,其用现有模型去模拟过去100年的温度变化,看看是否符合观测结果。图中杂乱的线是使用14个不同气象模型进行的58次模拟的结果,而单条灰色线则是这些结果的平均值,它与实际观测值(黑线)相当接近。
我们可以仔细想想这个事情。IPCC的这个做法相当于投票选举真理。如果我们对气候的认识是完美的,如果科学家明确知道自己在做什么,那么世界上应该只有一个气象模型。现在这种让大家都算一算然后取个平均值的做法,等于说我们不知道到底哪个是对的,其根本原因在于模型中的物理机制和参数有很多不能确定的地方。而这张图则说明这个做法的效果还不错!
但既然你的模型中有很多参数都是用历史数据拟合出来的,这些模型能够再现历史就不奇怪,最关键的测试还是你能不能预测未来。2007年《科学》上的一篇论文比较了IPCC在1990年对未来气候的预测与从1990年到2006年期间的实际观测。图中虚线是IPCC的预测,实线则是观测值。
这是一个非常有意思的结果。尽管我们一再被告知二氧化碳浓度上升主要是人为的,但IPCC对二氧化碳浓度的上升却预测得非常准确(文中解释,这是一个巧合)。它预测得不太准确的是温度上升,它预测得更不准确的则是海平面的上升。但最惊人的是IPCC不是高估了温度和海平面上升,而是低估了。实际情形比IPCC警告我们的更坏。
上面这张图至少说明在签署《京都议定书》期间,IPCC 的模型不是故意夸大危险来忽悠世人。此图用的都是1990年的旧模型,那么新模型们是否表现得更好呢?一份非正式的研究,把IPCC 2007年的新报告与从2007到现在的实际观测比较,则发现IPCC高估了温度的上升。
所以用模型预测未来是非常困难的事情,越复杂的模型就越困难,而且越细致的未来就越不好预测。我们看到预测海平面上升已经比预测温度上升困难,那么如果有人想进一步预测全球变暖带来的恶劣气候导致出现多少“气候难民”,我们就可以想见那是不可能准确的。联合国环境规划署曾经在2005年预测到2010年沿海地区将会有50万气候难民,结果到今年人们发现这些地区的人口不减反增。那么联合国网站怎么办?第一,删除原有预测(有人还是保留了一份证据);第二,不解释;第三,50万难民的预测时间现在被改成2020年了。
不要特别相信那些复杂的模型能对未来做出的复杂预测。问题是新闻记者总是比科学家更相信模型。2011年年初一份气候预测报告说未来10年温度将上升2.4℃并导致全球粮食短缺,科学家很快发现报告存在严重错误并且立即撤回了报告,可是这时候这个新闻已经被无数媒体广泛报道过了。
2009年,英国女王伊丽莎白质问经济学家,说你们就怎么都没预测到这次金融危机呢?经济学家们回信说,经济学这个工作都是各自为战研究具体领域内的小问题的,我们并没有坐在一起对世界经济这个整体发挥“集体想象力”(collective imagination)。换句话说,他们玩的都是小模型,没玩过这么大的。
科学家也是这样,一般情况下不想玩大的。科学家玩模型最大的目的其实是解决小问题,是想通过模型来发现和证实一些小机制。所有玩模型的科学家都知道自己模型的局限性。可是公众和政客非逼着你预测。如果非得预测大的不可,最好还是用IPCC这种多个模型取平均值的办法,也叫“发挥集体想象力”。
怎么理解特别大和特别小的数?
我最近听说这么一个笑话:
从前有个老太太,领着自己的小孙子在海边玩,突然一个巨浪把小孙子卷入了海里。老太太不会游泳非常无助,她大喊:“上帝啊!救救我的孙子!”也许是上帝听见了她的祈祷,又一个浪过来把小孙子毫发无伤地送回了老太太身边。老太太抱着孙子,非常感动,她接着对上帝说:“我孙子还有一顶帽子呢!”
这个笑话的精神是“重要和不重要”。如果你孙子好不容易捡回一条命,就别在乎帽子了。我们考虑重要事情的时候,得善于忽略不重要的东西。最起码的判断标准,就是数字大小。这个道理似乎特别简单,但是“判断大小”其实没那么容易。
10亿到底有多大?0.0001%到底有多小?理解这些数字,需要下点功夫。
1.大数有多大?
我们在日常生活中经常接触的数字都比较小,比如几十、几百,我们头脑中能非常形象地知道它是什么意思。但是对特别大的数就很难有直观的印象了。《数盲》的作者保罗士建议我们在头脑中训练自己对大数的印象。
谈论大数,我们得有“数量级”的观念——也就是10的多少次方,一个数量级的差距就是差10倍。对大数来说,几倍的差异你甚至都可以当它们是相等的(物理学的说法是它们在“同一个数量级”),数量级的差异才值得考虑。
我们最好能对不同的数量级有个形象的理解。1000,相当于一所中学的学生总数。1万,相当于一座体育场里的观众人数。10万,相当于一本书的字数。100万是什么概念?如果你每秒数一个数,数到100万需要11天半。以此类推,10亿相当于中国的人口。
再大的数字就不好想象了。10亿元和1000亿元相差了100倍,可是我们头脑中的形象,这两个都是“很大一笔钱”。很大一笔,到底是多少钱呢?
2014年我看《彭博商业周刊》上有篇文章,呼吁大家不要在开车的时候给手机充电。文章说车上的电都是燃烧汽油而来的,这种发电模式太浪费了——有多浪费呢?每年因为美国人在车上给手机充电,总共多消耗了价值2亿美元的石油!
这大概是我所看过最愚蠢的正经文章之一。2亿美元?这个数字很大吗?美国开车的人差不多都有2亿,相当于每人每年多花1美元!而这1美元可以让人在车上给手机充电——不知道省去多少麻烦,你因为一次忘记在家充电所带来的损失就可能超过1美元——这可能是你所花过的最值的1美元。
所以理解大数的一个好办法是除以全国人口。
不过上亿元的事一般都不叫事,叫新闻。跟我们日常生活关系更大的不是这些大数,而是小数。
2.我们应该害怕什么?
风险都是小数。描写风险的科学办法是给一个概率,可是我们很难形象理解特别小的概率。比如说,你担心因为被蜜蜂蜇而死吗?你担心吃东西噎死吗?最好先看看概率再担心。
《经济学人》杂志曾发表过一张很长的图,图中列举了每年美国人死于各种事件的概率——
(图片来自《经济学人》网站,2013年2月)
每年人们吃东西噎死的概率是1/100000,被蜜蜂或者黄蜂蜇而死的概率是1/25000000……但是你都不应该担心。最值得担心的其实是心脏病,1/467;各种意外事故加在一起的死亡率也才1/1656;排在第三位的是自杀,1/8000。剩下的危险事件致死率都有数量级上的差异,与前三项相比根本不足为虑。
我看《经济学人》这张图的一个优点就在于它把特别小概率的事件——比如死于流星撞击,概率是1/75000000——都给画出来了,而且还是按比例画的,能让我们特别直观地感受到需要有多么多的人,才能找到一个这种死法的。为了提供这个直观感受,《经济学人》不得不把图画得特别长。
可是一般的“风险知识”就没这么厚道了。比如说,吃某某食物能把得某某疾病的风险增大一倍——这应该怎么理解呢?
《魔鬼数学》中就有一个例子。英国有一种口服避孕药,效果很好很受欢迎,但是政府研究发现,这种避孕药会使得妇女得血栓的风险增加一倍,就向全国医生发布了一份报告,说开这个药的时候要谨慎一点。结果报告上了报纸,很多女性听说以后就干脆什么避孕药也不吃了,导致英国一年内多了好几万妇女怀孕,还增加了13000起人工流产。
根本问题在于,人得血栓的风险到底有多大呢?事实上,一个育龄妇女得血栓的概率只有1/7000,这本来就是一个极小的数字——你把一个小数乘以2,变成2/7000,还是一个小数!而且血栓不是绝症,得了也不一定死。有人专门做了计算,如果英国妇女正常吃这种避孕药,那么全英国每年会有多少人因此得血栓而死呢?差不多是,一个。
那你可能说,生命无价,多死一个也不行!有道理,可是因为不吃这个药,多死的1万多婴儿又怎么算呢?
《魔鬼数学》书里还有个例子。美国的托儿所有两种:一种是在老师自己家办的,一个老师带四五个孩子,学费比较便宜;另一种是正规托儿所,人手多,设施齐全。好,现在数据显示,家庭托儿所中小孩因为事故死亡的概率是正规托儿所的7倍——那请问,如果你特别注重安全,是不是应该把孩子送到正规托儿所去呢?
像这种问题千万不要只看倍数,一定要看看概率的绝对值。事实是全美国每年死于家庭托儿所的孩子只有十几个——而与此同时,同样年龄的孩子死于交通事故的数量是每年79个。那么如果正规托儿所离家比较远,家庭托儿所离家比较近的话,哪怕距离只相差20%,你如果只考虑安全,就应该把孩子送到家庭托儿所去。
所以哪怕只考虑安全,也不能一听说有风险就变色,得把各种风险放在一起比较才行。
不过在我看来更好的思维方式是接受这个世界是有风险的。交通有风险,我们也不能不上街。与其担心各种极小概率的危险,还不如把心思用在别的事情上——那些更重要的事情。
3.重要和不重要
美国给退休人员发放的社保基金有个漏洞。有的人已经去世了,但是可能家属故意不报,也可能系统有问题,他的银行账号还能收到社保基金。根据社会保险局估计,每年因为这个漏洞,美国财政损失达3100万美元。那么面对这么大一笔钱,是不是应该赶紧想办法修补漏洞呢?
有人做了这么一个计算——这3100万美元,相当于美国每年发放社保基金总数的0.004%。也就是说,社保基金发放的准确度高达99.996%,这简直是非常完美的系统!到了这个程度如果还想再做得更加完美一点,你往往需要付出很高的代价,花费巨大的行政成本——这个代价可能远远高于3100万美元。
不看数量级,3100万美元是一笔巨款;一看数量级,这点损失不算什么。
什么东西都有弊端,但不是所有弊端都必须纠正。做任何事情都有利有弊,很多情况下如果你做个计算,利弊还是很容易看出来的,其中经常是数量级的差异。
一件不值钱、不知道什么时候会用到的旧东西,值不值得保留在价值千万的房子里以备不时之需?为了把孩子考上重点大学的概率增大一点——这样他将来也许能获得更高的工资,住更大一点的房子,但一切都还是概率——值不值得全家人在一个窄小的学区房里挤上十几年?
我们日常做判断,都是用丹尼尔·卡尼曼在《思考,快与慢》一书中说的“系统1”,主要是模式识别——东西有毒,第一反应就是不吃;事情有危险,第一反应就是不做。可是什么叫有毒?多大的危险?0.01%和0.0001%的差别巨大,但是给我们的心理冲击是一样的。
生活中捡芝麻丢西瓜的事情在太多了。有的人买生活必需品的时候非常节省,买奢侈品的时候特别大方。有的人能为几十块钱货比三家,面对人生重大选择却异常草率。
忽略小事不是因为大胆,不是“个性”,而是理性。重视小事就等于忽略大事。你判断轻重缓急,把精力和资源放在最重要的事情上。
所以能够不顾心理冲击,坚决使用这种“数量级思维”,是一种“大人物思维”。别人看3000万美元很多,他看3000万美元很少。别人认为这个事儿实在受不了,他对这个事儿根本不在乎。这种“大人有大量”,不是装出来的,也不是“养吾浩然正气”养出来的,是算出来的。
见识过、计算过、能做出理性决定,这才叫有胆有识。
最后咱们再说个笑话,来自《数盲》这本书,大概需要有点大小尺度的观念才能体会到笑点
有一对90多岁的老夫妇闹离婚,请律师办手续。律师问他们,在一起都生活一辈子了,怎么这时候离婚?老夫妇说,早就决定离婚了,怕给孩子们造成伤害……所以等到孩子都去世以后再离。
安慰剂效应与对世界的认识
这篇文章要说的话题可能会改变你的世界观。就算你早就听说过这个效应,今天说的最新进展也很可能会刷新你的认知。
1.效应
咱们先想象一个场景。假设你最近总觉得头痛。也可能因为没休息好,也可能因为工作紧张压力大,总之就是疼,很难受。于是你就去看了本市最好的医院,托人找到治疗头痛最好的医生。这个医生特别不好约,你预约之后等了一个星期才见到他。
你一见到这位医生就感觉放心了。医生的形象、说话的语气、做事的风格都特别专业,而且态度和蔼可亲,一看就是一位素质过硬的好医生。他详细询问了你的病情,然后安排你做了全面的检查,什么 CT 之类的项目都上了。你折腾了半天,拿着检查结果回到医生的办公室,医生仔细研究了所有的片子和数据。
医生郑重地对你说,你这个病比较严重,但是现在国际上刚刚有人研究出来一种疗法,我恰好知道这个疗法,我能给你治好。你需要服用一种很贵的进口药,价格是1000块钱一片,每天两片,一个月见效。幸运的是这个药已经被列入国家医保药物目录,你自己并不用花很多钱。医生给你开了药,告诉你回去一定要按时吃,而且吃药必须使用温开水,要在饭前吃。特别要求,吃药期间绝对不能抽烟喝酒,生活起居都要有规律,以免影响药效。
你千恩万谢地告别医生,到药房拿到了一瓶珍贵的进口药。你一看瓶子上的单词都不怎么认识,药丸的形状也很不同寻常,感觉特别高级。
你按照医生的吩咐吃了一个月的药。效果非常好,你现在感觉几乎就不疼了。
到医院复查的时候,医生告诉你,他给你服用的那个药里的成分,其实就是普通的糖。你是吃了一个月糖豆,把病治好了。
这就是“安慰剂效应”(placebo effect)。你吃的不是药,你吃的是“安慰”。你在整个求医过程中获得了一种极大的心理暗示,你特别相信这个药有效,结果这个药就真的有效!
安慰剂效应到底是怎么回事儿,现在医学界仍然在研究之中,没有一个定论。但是所有医生都知道,安慰剂效应的确存在,而且效果强大。
当然,真实行医过程中医生大概不会故意给病人开安慰剂——这么做就算特别有效,也是不道德的,你不能让病人花进口新药的钱吃糖豆。医学界更多的是使用安慰剂测量真实药物的有效性。
比如你发明一种号称能治疗抑郁症的药,那么在这个药被政府部门正式批准上市之前,就要做一个有效性实验。有时候实验就是把病人随机分成两组,其中一组吃你这个药,另一组吃的则是外观和味道完全一样,但成分是糖豆的安慰剂。实验一般要求“双盲”——也就是病人不知道自己被分到了哪个组,连发药的医生护士也不知道哪个病人在哪个组,就让所有人在一样的环境中治疗,那么唯一的区别就是真实的药效。
而实验往往就会发现安慰剂组的病人的病情也缓解了。那么吃你这个药的组的病人病情的好转情况,如果不显著好于安慰剂组,就说明你这个药并没有真实的有效成分。
这些道理非常简单,是每个现代人都应该知道的医学常识。
但我下面要说的,可就不是常识了。
2.如果手术也是安慰剂……
吃药治头痛是安慰剂效应这个我们容易理解,毕竟头痛是个常见的小病,很多头痛本来就是心理作用。那要是关节炎、后背痛、哮喘这些实实在在的病呢?那要不是吃药,而是手术呢?
现在有一系列大规模研究证明,很多手术——包括一些特别常见的手术——效果并不比安慰剂更好。
所谓手术类安慰剂就不是吃药了,而是“假手术”,英文有个专有名词叫“sham surgery”。
有很多人长期感到膝盖疼,有一个专门治疗这种病的手术叫“关节镜膝盖手术”,美国每年要做大约70万例(2010年全年做了692000例)。这个手术的原理是说人之所以膝盖疼,是因为他的半月板有退行性的磨损,手术要打开膝盖,对半月板进行修复。这个原理直截了当,而且手术后病人的确感到不疼了,所以应该没问题吧?这就是为什么长期以来医生们都是这么做的。
但新的研究说,你做个假手术,也能取得同样的效果。这个研究是这样的:招募一些病人,事先告诉他们会被随机分成两组,一组做真手术,一组做假手术,而病人并不知道自己被分到哪个组。假手术和真手术的过程几乎是一样的:手术前几天病人要节食,手术时好几位医生和护士联合行动,手术部位要被消毒,病人被全身麻醉,如果病人在手术过程中意外醒过来,他还能看到电视屏幕上显示自己的膝盖已经被打开了,正在做手术——只不过那是录像而已。真实情况是,假手术中医生也会切开病人的皮肤,留下一个伤口,然后也按照手术流程包扎好——但是并没有做什么关节镜膝盖手术!
结果是,做了真手术和假手术的病人都表示手术很有效果。后来医生告诉安慰剂组的病人你其实做了一个假手术,病人的反应往往是目瞪口呆。
2014年一个综合研究比较了53项实验研究,涉及的手术包括哮喘、肥胖症、帕金森症、胃酸反流、后背痛等不同类型的手术,结果是对于其中一半的手术,假手术和真手术的疗效完全相同。而对占总数74%的手术,假手术表现出了一定的效果。
别的研究则显示,像治疗膝盖痛的关节镜膝盖手术、治疗椎间盘突出的椎体成形术(也叫椎间盘电热疗法)这些常见的矫形外科手术,效果都不比假手术更好。
所以现在有医学家说,手术的安慰剂效应不但不比吃药的安慰剂效应弱,反而更强。假手术做得越是郑重其事、手术开刀对身体的损伤越深,安慰剂效应就越强。
到底为什么会有这样的效果呢?
可能人的精神会影响身体。病人看到手术做得这么严肃,医生如此地尽心竭力,就相信这个手术一定有效,然后身体就真的有积极正面的反应。
另一种解释是统计学上的“回归均值”。本来病人感到的疼痛就是个主观的感觉。经历一次大手术,皮肤毕竟被切开了,手术后因为这个手术而带来的疼痛,可能比原本的长期疼痛重得多。那么等到手术疼痛过去以后,病人一比较,就觉得原来的那个疼痛也不怎么疼了。
还有一种解释,则是疼痛的来源本来就很奇怪。就拿治疗膝盖疼的手术为例,本来,医生的想法是你膝盖疼肯定是因为你的膝盖里哪个地方有毛病。核磁共振一扫描,发现半月板有磨损——看来问题就出在这里!于是手术修复半月板。可是问题是,你如果扫描一下正常人的膝盖,会发现他们的半月板也有各种磨损!其实每个人的膝盖里都可能有各种毛病,但是别人为什么就不疼呢?
事实是疼痛和损伤之间并没有必然的联系。既然这个疼痛来得就很奇怪,那折腾一番不疼了似乎就不怎么奇怪了。
那既然这些手术的效果并不比安慰剂好,为什么医生们还在做这些手术呢?这可能是因为医生也不知道。真正大规模的严肃研究开展得并不多,医生们一代一代传下来的方法都是这么做,而且这么做的确有效,那就都这么做呗?3.什么叫有效
使用“随机实验”这个科学方法判断一种疗法的真正疗效,是把现代医学从传统医学里区分出来的重要一步。这是非常简单的道理,但是我们看到,即便在现代的主流医院里,仍然有很多主流疗法通不过这个检验。这就是为什么现在有人呼吁搞“循证医学”,也就是要对每一种疗法都做这样的严格检验。但是目前局面离这一步还差得很远。
不过我们今天真正得到的并不是对医院的抱怨,而是这个思维方式:到底什么叫“这个东西有效”?
给老人花很多钱买了电视广告大量宣传的补品,老人吃了之后表示有效,那你能说这个补品真的有效吗?很可能就是一种安慰剂效应。你得找对照组,吃同样精美包装、同样味道的“假补品”,看看有没有类似的效果。
一瓶20块钱的矿泉水,有人喝了认为比2块钱的好喝——那到底是水真好喝,还是因为价格带来的安慰剂效应?至少对红酒来说,我听说过好几次随机实验,只要品酒的“专家”不知道他们喝的酒多少钱一瓶,就无法把200美元的红酒和20美元的红酒区分开来。
更大的道理是,想要在复杂世界里获得一种确定的因果关系,有时候非常困难。一个成功人士分享自己的人生经验,说他是因为有这样那样良好的生活习惯、做了这些那些别人做不到的事情,才取得了今天的成就。他“亲测有效”,那你能说他做的那些事情真有效吗?有些可能就是安慰剂效应,就算不做、只要“心诚”,也有效。也许他们成功最重要的因素是运气好。
了解安慰剂效应,善于使用科学方法,是我们“防忽悠”的最佳办法。下次有人再鼓吹什么东西有效,请你问他一句——
敢不敢做个随机实验?!
反安慰剂效应和养生之道
前面说了安慰剂效应,现在我们再说一个科学观念上的新进展,这个进展可能直接对你的身心健康有好处。
咱们先讲两个故事。老王进入40岁以后,明显地感觉自己的身体不如以前了。他白天稍微工作一会儿就会感到很劳累,四肢乏力,常常犯困。老王知道这是因为自己的睡眠质量不好,晚上躺在床上总爱想事情,有点焦虑。情况好像越来越严重,老王甚至觉得已经有点抑郁了,他赶紧去看了医生。
医生的诊断结果的确是长期失眠导致的身体不适。医生给老王开了一些有助于睡眠的药,可是老王仍然抱怨睡不好。最后医生让老王佩戴一个智能手环,他要实时记录老王的睡眠,看看问题到底出在哪里。
几周之后,医生看着老王的睡眠数据,感到非常不理解。老王的睡眠质量相当好。他每天都能连续睡八九个小时,不管按什么标准,这都已经足够了啊。
老王以为自己没睡好,他的身体表现就好像真的没睡好一样。
小张今年20多岁,她正在减肥。小张知道,要想保持身材,就必须尽量吃低糖低热量的“健康食品”。有时候小张的午餐就是一点水果和蔬菜。但是小张也深深地体会到,“健康食品”真的都不怎么好吃……而且最大的问题是根本吃不饱。小张经常处于饥饿状态,她只允许自己每周吃两顿正常的、好吃的、能吃饱的饭。
有一次参加公司活动,小张看现场提供的蛋糕很不错,做得很漂亮,感觉应该好吃。小张决定破戒一次,她走上前去拿起一块蛋糕。这时候旁边有个工作人员热情地告诉她,这个是低热量的健康蛋糕,你多吃点没关系。小张就连吃了两块。确实很好吃……可是确实没吃饱。
小张不知道的是,那个工作人员说谎了。这个吃蛋糕的活动其实是一个实验。现场有一半的人被告知这是健康蛋糕,而另一半人则以为这就是正常的、高热量高糖高脂肪的蛋糕。人体内有一种“饥饿激素”(ghrelin),能促进脂肪吸收,降低新陈代谢速度,并且让你感到很饿。吃一顿正常的食物之后,饥饿激素的水平应该下降。这也是那些相信自己吃的是正常的蛋糕的人的表现,他们不饿了。
但是小张和她所在的这一组的人,他们的饥饿激素水平显著高于另一组。他们以为自己吃的是健康蛋糕,他们以为自己没吃饱,他们的身体就真的像没吃饱一样,拼命吸收和储存脂肪。
这两个故事不是我胡乱编的。它们取材于最新一期《新科学家》杂志报道的几项研究。老王和小张的情况,叫作“反安慰剂效应”(nocebo effect)。
你已经听说过“安慰剂效应”(placebo effect)。一个人觉得自己身上这儿疼那儿疼,到医院医生给开了个药,他吃下去感觉真的好多了——殊不知,那个所谓的药的成分就是淀粉,根本没有对症的作用,是个安慰剂。病人所谓的“感觉好多了”,其实完全是心理作用。然而有意思的是,对很多病症,在最科学、最客观的检测之下,研究者发现服用了安慰剂的病人不仅仅是“感觉好多了”,而且他身体的硬指标,比如血压之类,也真的变好了。
人的思想,可以切实地,影响人的身体状况。
而所谓的反安慰剂效应,则是这个人本来没事儿,因为自己以为自己有问题,结果就真的有了问题。老王睡眠没毛病,小张吃的其实是个正常的蛋糕,可是他们的身体反应就跟失眠和吃了健康蛋糕一样。
反安慰剂效应的极端例子是自己能把自己吓死。20世纪70年代,美国的一个病人被医生诊断是肝癌晚期,过了几个月他就死了——可是解剖显示,当时的医生是误诊,他根本就没有肝癌。他不是死于癌症,他是死于以为自己有癌症。
安慰剂效应和反安慰剂效应到底是怎么回事儿,思想到底是怎么影响身体的,现在科学家还没有完全搞清楚。但我想说的是这里面并没有一个什么神秘莫测的、统一的机制——科学家已经找到了作用原理不同的几种机制,而且大多跟大脑让身体分泌某种激素有关,比如刚才说的饥饿激素。
我的专栏以前多次讲过压力对人身体的影响,包括斑马为什么不得胃溃疡、压力怎么影响细胞端粒的长短。心理压力的作用在于影响皮质醇这个激素的分泌。长期的高皮质醇水平会导致身体内部发炎。
如果你不是科学家的话,你最想知道的可能不是机制,而是这有什么用。
这可能有大用。《新科学家》这篇报道说,斯坦福大学心理与身体实验室(Mind & Body lab)的科学家艾莉雅·克拉姆(Alia Crum)现在专门研究怎么用一个好的心态获得健康。
我们以前说过,你如果把压力当作挑战,而不是威胁,压力对你的健康就不会有危害。这就是心态(mindset)的作用。你需要改善心态。老王之所以有失眠的各种症状不是因为他真的睡眠不好,而是他以为自己睡眠不好。研究表明,“抱怨睡眠不好的人”,各种症状远远多于那些“睡眠不好但是不抱怨自己睡眠不好的人”。如果你认为自己睡眠足够,哪怕你明明睡得很少,你在很大程度上就不会有什么睡眠不足的症状。
所以小张应该以享受美食的心态去吃每一顿饭,哪怕她吃的是健康食品。她应该说服自己,这顿吃得很好、很多、很饱,让身体减少饥饿激素分泌。
这听起来似乎有点不靠谱,但是克拉姆等人做的研究还是比较过硬的。克拉姆找到84个在酒店里工作的清洁工,她们的身体状况一般,普遍有点血压高。克拉姆告诉其中一半的人,说你们做的这些打扫卫生的工作,每小时要消耗200卡路里的热量,这其实已经满足了美国医学界给的锻炼标准——你们干活儿,其实就是在锻炼身体啊!对另一半人什么都没说。
结果短短一个月以后,那些被告知干活儿就是锻炼身体的清洁工,平均体重下降了一公斤,血压也下降到了正常水平。而另一半人没有这些效应。
这个结果有两种解释。一种解释是清洁工的心态直接地、自动地影响了健康;还有一种解释则是那些被告知干活儿就是锻炼的清洁工,她们干活儿的时候特意更卖力气了。
如果是后一种解释,那这个效应就不怎么神奇——但结果似乎更符合第一种解释!有人做了一个长期跟踪研究,考察了6万人的“健身心态”和他们20多年来的实际健身状况。结果是心态比实际的锻炼更重要。哪怕两个人的实际锻炼时间长度和锻炼水平一样,那个自以为练得好的人,他的死亡率会比那个悲观的人低很多。
所以克拉姆的建议是你要积极承认自己在锻炼。你不必骗自己,但是千万别总说自己的锻炼水平不如别人。别忘了打扫卫生也是一种锻炼。
心态对“抗衰老”的影响就更大了。以前我听说过一个研究,让一群七八十岁的人在一起假装自己年轻了20岁——哪怕只有5天,他们的关节炎症状也减轻了,站得也更直了,大脑反应也更快了,连智商都提高了。
《新科学家》说,如果你心态年轻,你能比别人平均多活7.5年。如果你整天说自己不行了,真是老了,你甚至可能会提前38年得上老年病。
……所以,心态真的很重要。为了让你进一步相信安慰剂效应的作用,我们最后再说一个你可能想不到的安慰剂效应。
生活中有些人早上要是不喝几杯咖啡就无法工作,说咖啡能让他们头脑清醒——但是,有研究表明,喝咖啡的作用,可能仅仅是个安慰剂效应。事实上,哪怕你给人喝的是清水,只要你告诉他这水里有咖啡因,他喝下之后也能感到精神倍增!
关于安慰剂效应还有一个重要的知识:哪怕你知道这是安慰剂,它还是会对你有用!这是一个重大好消息,这意味着安慰剂效应不是一个害怕被拆穿的戏法。你大可以放心了解相关的研究,做一个理性的、清醒的明白人,同时你还能享受安慰剂的好处。
我了解了这些研究,感觉简直是人生何处不是安慰剂。下次看到有人说他如何如何的时候,我们的第一反应应该是在心里问问,这到底是他被迫如此,还是他的主观心理把自己变成了那个样子?我们是生活在一个非常主观的世界之中的。
那么了解了心态有这么重要的作用,我们就应该时刻考察和反思自己的内心——你得学会“三省吾身”。《论语》里说的“三省吾身”,“为人谋而不忠乎?与朋友交而不信乎?传不习乎?”都是对道德品质的要求,普通人没有那么大的动力。老年人朋友圈经常说的什么“不生气”之类的鸡汤,则根本上不了台面。
从今天讲的这些科学知识的角度来看,对我们最有用的“三省吾身”,应该是下面这样——
装什么病?
卖什么老?
你干活儿就是锻炼身体知道吗?
P<0.05:科学家的隐藏动机
这篇文章的副标题有点耸人听闻,但我本来想用一个更耸人听闻的副标题,叫“科学家的自欺欺人”……其实我想说的是有关科学研究的一个“技术性”的内幕。这个内幕不是阴谋也不是秘密,这不是爆料。现在经常有些科学家造假的新闻,但我们今天说的可不是造假。我只是想讲一点真正的科学研究的操作方法。
在你听说的所有心理学、医学和社会调查研究中,凡是涉及统计方法的研究,从理论上来讲,哪怕科学家都是兢兢业业老老实实地工作,大约每20篇论文中,就有1篇的结果,其实是无效的。而因为科研界很多灰色的做法,实际情况比1/20要坏很多。
这个误差,是科学方法本身所决定的。
如果你了解一点香农的信息论,就会知道有一句话叫“信息就是意外”。那么当你遇到一个统计结果,你在多大程度上应该对这个结果感到意外呢?
这个问题有点大。但我并不认为这个问题有多么难以解释,我想给你解释解释。
1.统计结论是怎么来的?
比如现在有人发明了一种新药,你怎么证明这个药是有疗效的呢?
有个病人吃了这个药,然后他的病就好了,你能说这个药有疗效吗?不能。因为有些病不吃药也能好。
科学的做法,当然是做个随机实验。我找100个病人,随机分成两组,每组50人。我们给第一组病人吃新药,给第二组病人吃跟新药看上去一模一样的……糖豆,也就是安慰剂。病人自己并不知道被分到了哪一组,我们甚至还可以让负责发药的医护人员也不知道每次发的是新药还是安慰剂,这样所有病人除了吃的药不一样,其他方面都是一样的,这就做成了一个“双盲”实验。
如果在一个疗程之后,第一组病人全都治好了,第二组病人全都死了,那我们就有充分的理由相信这个新药是有疗效的。
但真实世界没有这么好的事。即便是在市场上很火的药,效率也没有那么高,经常都只是比不吃药稍好一点而已。你的实验结果更可能是第一组有22个人的病好了,4个人死了,第二组只有15个人病好了,但是只死了3个。
这就让人很无奈。你说这个药无效吧,第一组的治愈率确实比第二组要高。你说这个药有效吧,疗效似乎不怎么明显,死亡率还上升了。那如果你是科学家,这个论文应该怎么写呢?
这就得用到统计方法了。这个思想的关键,就是我们要判断,现在这个结果,到底是药物疗效导致的呢,还是纯粹是个偶然事件。
咱们干脆考虑一个最简单的例子,只看死活:假设第一组的所有病人都活着,而第二组死了5个病人。也许正是新药的疗效,才让第一组没死人,但也许这只是一个巧合。
科学家的做法,是先来一个“无效假设”:
假设药物无效,并且这个疾病的死亡率就是第二组所揭示的10%。
科学家的问题是,如果这个无效假设是对的,那么请问,出现第一组不死人这个结果的可能性,有多大?
这个问题的本质,就是问,你第一组这么好的结果,到底是不是纯属偶然。纯属偶然是完全可能的。哪怕药物完全无效,以至于这个病还是有10%的死亡率,那也不见得第一组就也应该死5个病人——你要知道,哪怕是抛硬币,也存在连抛50次都正面朝上的可能性。
那我们就来算算这个可能性。每个病人不死的概率是0.9,50个人都不死的可能性就是0.9的50次方,等于0.00515。
科学家把无效假设成立的可能性,称为“P
值”。那么在这个例子中,P
= 0.00515。
那也就是说,无效假设不成立、第一组实验结果并非偶然的可能性,是1-P
= 0.99485。
那么科学家就会这么写论文:“实验证明,这种药是有效的,P
= 0.00515。”
读者读到这句话,就可以这么理解,实验结果应该不是巧合,这种药有效的可能性高达99.485%。
这才是理解论文的正确思路。P
值告诉我们巧合的可能性。回到咱们最开头的实验,在一定的 P
值的指导之下,我们也许可以说:药物疗效大概是真的,第一组的治愈率高很可能不是巧合,而第一组多死了一个人这件事,很可能只是巧合。
但是对不起,你注意到没有,我们前面说错了一句话。“这种药有效的可能性高达99.485%”,这句话是错的。
2.怎样理解P
值?
关于 P
值有很多错误理解。我们前面那句“这种药有效的可能性高达99.485%”其实是错的,但是很多科学家跟记者也这么说。
P
值的真正意思是说,在“死亡率是10%”这个无效假设之下,实验结果纯属巧合的可能性是0.00515。那我为啥非得用死亡率是10%这个无效假设,我为什么不用别的无效假设呢?这纯粹是科学家的主观选择。
还有一点特别重要,P
值只能让我们更好地评估这个药“有没有”疗效,但是它可没说这个药的疗效有多大。
比如2013年《自然》杂志上有个影响很广的论文,说:
“针对19000人的研究表明,如果夫妻双方是通过婚恋网站介绍认识的,他们离婚的可能性比在线下认识的夫妻低 (P
< 0.002) ,他们收获较高婚姻满意度的可能性比线下认识的夫妻要高 (P
< 0.001)。”
这两个 P
值很低,说明结果绝非偶然。那我们能从这段话里得到什么结论呢?是不是说在生活中找对象这种做法太落后了,我们应该把命运交给婚恋网站的匹配算法呢?
不至于。你要仔细看这篇论文的结果,婚恋网站只不过把离婚率从7.67% 降到了 5.96%,把婚姻满意度从 5.48 分(满分 7 分)提高到了 5.64 分而已!这点效应根本不值得你太认真。
现在学术界的一个几乎是“黄金标准”的标准,是 P
值要小于 0.05。如果 P
> 0.05,别人会认为你这个结果很可能纯属巧合,根本不值得认真对待,你都不好意思写论文发表。如果 P
< 0.05,人们就说这个结果是“显著的”(significant)。
但是请注意,这个“显著”的意思,可不是说疗效很厉害——P
值关注的仅仅是“有没有”疗效,不是疗效的大小!
还有个关键问题。为啥非得是 0.05 呢?
3.0.05 啊 0.05
我看有些统计学教材都把 0.05 当成了一个硬性标准,P
< 0.05 就显著,否则就不显著。但事实上这个标准根本没有科学依据,纯粹是科学家的约定俗成而已。
这一整套看 P
值的检验方法是英国的统计学家罗纳德·费希尔(Ronald Fisher)提出的,这个理论才只有几十年的历史。
费希尔先生是个体面人。他当时选择了0.05这个数值,可不是说 P
< 0.05就可以发表论文——他的意思是 P
< 0.05 的结果才“值得看”。那满足什么标准才算可以接受的结论呢?费希尔当时想的可是 P
< 0.001。
但问题在于,做实验想要得到 P
值小于0.001的结果,需要找太多受试者,成本实在太高。大家退而求其次,都默认了 0.05。其实即便是这个标准都是很难达到的,不知道有多少科学青年的青春,就消耗在了这个 0.05 上!
其实就算做到了 P
< 0.05,也不能说实验结果就是真的——根据我们前面的分析,P
= 0.05 意味着有 1/20 的可能性,在你这个特定的无效假设之下,这篇论文的结果纯属巧合。事实情况比这个严重得多,根据有人的研究①
,如果你考虑到无效假设的任意性之类的统计方法上的因素,一篇 P
= 0.01 的论文,属于巧合的可能性,在某些情况下,高达11%!
而这还不算完。
4.动机性推理
说到这里我想说一个概念,叫“动机性推理”(motivated reasoning)。所谓动机性推理,就是如果你事先有一个达到什么结论的强烈动机,你的推理过程就会刻意地满足这个结论。
如果科学家非常希望自己的结论是对的,他想让 P
值小于0.05,他就有可能采取一些主观的做法,达到这个标准。
你可以选择一个不一样的无效假设。你可以看 P
值太高就再多招几个受试者做实验。再比如说,实验组多死了一个人,你可以说这个病人是个特殊病人,他有别的病,他的死亡是因为别的病的并发症,这样的数据不算数!——你就把这个不利的数据给剔除了。这个做法叫“数据采摘”,英文叫 cherry-picking——你就好像挑选樱桃一样,只要你想要的数据。
Cherry-picking 不算造假,但是也不能算诚实的科研态度。
那你可能问,你说科学家刻意美化了数据,这有根据吗?我们的确不能拿着一篇论文就说人家的 P
值是经过美化的,我们不了解人家的实验是怎么做的。但是如果你把很多论文都放在一起,看看 P
值在这些论文中的分布情况,你就会发现一个很有意思的现象。
P < 0.05 纯粹是人为的约定,没有任何自然意义,所以各个研究中 P 值的分布应该是一条光滑的曲线,0.05这个数值在曲线上不应该有任何突兀之处,对吧?当然,有些 P > 0.05 的结果也许没有发表,那么曲线应该在0.05这个地方有个截断,但是0.05不应该比0.045重要,对吧?
可过去这几年,就不断有研究发现,在经济学、心理学和生物学论文中,P值的分布,在0.05处有个明显的凸起——
唯一的解释,就是有很多论文故意把 P 值“做”到了“恰好”在 0.05 以内。
总结一下——
1.P 值代表“在一定的无效假设之下”,实验结果纯属巧合的可能性——有相当比例的实验结果其实就是巧合。
2.P 值只能预示“有没有”疗效,而与疗效的大小无关。
3.P 值小于 0.05,是个不怎么体面的人为约定。
4.即便如此,还是有很多科学家使用数据采摘之类的手段,美化了自己研究的 P 值。
每个人都有隐藏的动机,连科学家也不例外。那别的行业是什么样,也就可想而知了。
那科研结果还能信吗?能信,科学方法是获取知识“最不坏”的方法。而且近年来,科学家们自己也正在积极反思 P 值代表的问题。
真实世界就是这样——没有我们最初想象得那么美好,但是总值得我们活下去,而且有一点你不能不承认:它比我们想象得更有意思。