被操纵的P值：科学论文中的数学胡扯丨展卷-返朴的财新博客-财新网

在零假设显著性检验中，p值是在假设零假设正确的情况下，获得检验结果至少至少与实际观测样本相同极端的样本的概率。学术研究中，研究人员习惯用p值衡量实验数据的可靠性。当p值小于0.05时，意味着仅因偶然性产生的概率小于5%时，结果具有统计显著性。但是，古德哈特定律指出当指标变成目标后，就不再是一个好的指标。P值就有这样的特点，许多研究中的p值并不可靠，甚至是被操纵的结果。

本文经授权转载自《拆穿数据胡扯》（中信出版社，2022.3），标题为编者所加。点击文末“阅读原文”可购买此书。点击“在看”并发表您的感想至留言区，截至4月23日我们会选出两条留言，各赠书一本。

撰文丨卡尔·伯格斯特龙（Carl T. Bergstrom）（美国华盛顿大学生物系教授）、杰文·韦斯特（Jevin D. West）（美国华盛顿大学信息学院副教授）

翻译丨胡小锐

最后，我要对大家提出一个一般性的忠告：想一想追求知识的真正目的是什么；追求知识不是为了心灵的快乐，不是为了争论，不是为了比别人优越，也不是为了利益、名誉、权力或任何这些不重要的东西，而是为了改善生活，为生活所用；用仁爱来完善和管理它。

——弗朗西斯·培根

尽管科学家往往有强烈的好奇心，热衷于解决难题，但他们在大多数方面和其他人一样，都在努力赚钱，都想在同行中出人头地。我们从事科研是希望了解世界如何运转，但我们也想要给我们的朋友和同事留下深刻印象，赢得下一次晋升，并且（如果一切非常顺利）在《每日秀》或《上周今夜秀》中当一次嘉宾，出一回风头。科学家既寻求真理，也希望得到认可。具体来说，科学家希望人们认可自己是做出某个发现的第一人。这在科学上被称为优先规则。

科学家建立声誉的方法是通过科学论文公开自己的发现，论文的篇幅在2~50 页，得出的结果必须新颖、重要、完整而且正确。论文应该描述以前没有报告过的实验或观察结果。论文报告的成果必须告诉我们一些关于这个世界的、之前不为我们所知的东西——即使作者仅仅是巩固加强了之前的观点，也表明他们实现了这一目的。论文必须与正在进行但已经被认为令科研界感兴趣的研究问题密切相关，或者令人信服地证明某个新的研究问题具有重要意义。为了完整，论文必须足够详细地描述实验或其他工作，以便该领域的其他专家能够重现这些发现。显然，一篇论文不能误报谎报，不能做毫无根据的推断，也不能提出错误论断。最后，论文的长度必须适中。这是一个惯例问题，在不同领域会有所不同，但它与出版物对研究范围的要求有关。在实验室里一个下午的研究是不足以写一篇论文的，但数年努力取得的成果通常会被分拆成一系列文章。

纯理论科学依靠同行评议维护这些标准。当作者希望发表论文时，他/她会将其提交给科学期刊。然后，期刊工作人员将这篇未发表的文章发给审稿人。审稿人的人数不多，都是自愿阅读这篇论文、评估其质量并提出改进建议的其他科学家。期刊的声望有高有低，各不相同。在主要期刊上发表的论文比其他论文更有声望。最优秀的期刊通常会广为传播，有众多的读者，在质量和重要性这两个方面对待发表文章设定了非常高的标准。其他期刊的读者群较小，被最优秀期刊拒绝的论文常常可以被这些期刊接受。甚至还有一种质量非常低的期刊，它们会发表几乎任何论文，通常是有偿的。

在工业科学领域，科学家的过程和成果都受到严密的保护。与之不同的是，纯理论科学家通常都竞相发表自己的研究成果，在推特和脸书上博取关注，并在会议上争先发言。奖励声望而不是奖励直接输出，是让广大的研究人员开展高校合作、减少重复劳动的一个妙招。

其他研究人员无法复现的成果很快就会被推翻。因为我们对世界的科学理解有可能随着新的证据出现而改变，所以科学已经证明，在偶尔走错方向时，甚至在出现科学欺诈形式的故意误导时，它都有回到正轨的能力。

21 世纪初，无法复证这个问题出人意料地在许多领域频频出现。偶尔有一两个问题是由于欺诈或能力不足造成的，但大多数问题都无法用一两句话加以解释。一些受人尊敬的研究人员取得的脚踏实地的成果也无法复现。我们最信任的科学是不是在无意中大规模制造胡扯呢？如果是，又是为什么呢？

很多原因可能导致科学结果无法复现，其中最明显的原因或许就是赤裸裸的欺骗。如果研究人员伪造了数据，我们就不能指望可以复证他们的实验了。欺骗行为会引起公众的广泛关注，如果频频发生，就有可能给人留下一种错误的印象。不过，公然欺骗的行为比较罕见。这也许可以解释为什么只有千分之一的研究无法复证，但不能解释为什么实地取得的实验结果有一半不可复现。那么，我们如何解释复证危机呢？为了回答这个问题，我们不妨绕个弯子，看看一个被称为p值的统计量。

p值操纵

我们经常用0.05作为p值的临界值（纯粹是因为这是惯例），表示一个结果在统计学上具有显著性。换句话说，当p < 0.05 时，即仅因偶然性产生的概率小于5%时，结果具有统计显著性。

研究人员更有兴趣阅读那些报告有统计意义的“阳性”结果，而不是无意义的“阴性”结果的文章，因此作者和期刊都强烈希望呈现有意义的结果。为什么研究人员和期刊对阴性结果不感兴趣呢？我们还不完全清楚，但有很多可能的原因，其中一些可能与我们自己的心理有关。对我们大多数人来说，阴性结果有点儿令人厌烦。“这两组人没有区别。”“这种治疗不会改变结果。”“知道x不能帮助我们预测y。”读到这样的句子，我们会觉得又回到了起点，一无所获。

阴性结果也可能与无法进行技术实验有关。卡尔在微生物实验室从事研究时，经常不能在琼脂平皿上培养出他研究的微生物大肠杆菌。这不是一个有趣的科学结果，而是证明了他在实验室环境中能力严重不足。

第三种可能是否定命题比比皆是。陈述一个不正确的假设很容易。把单词随意组合成句子，它们通常都是错误的，例如：“郁金香咬。”“雪花融化铁。”“大象是鸟。”在海量假命题中寻找真命题，无异于大海捞针。就像古老的棋类游戏《战舰》一样。棋盘上的大部分空间都是开放水域，因此，如果没打中，就学不到很多东西。但是一旦击中，就会学到很多东西——以此为基础，还可以学到更多。

出于所有这些原因，阴性结果不会得到大量的关注。我们从来没有见过一个人仅仅因为大谈她在实验室里做不到的事情而获得一份工作或赢得某个奖项。

科学家几乎都不会为了得到想要的p 值而进行科学欺诈，但仍有很多不易界定的破坏科学过程诚实性的行为。研究人员有时会尝试不同的统计假设或测试，直到他们找到一种方法，可以让他们的p 值跨过具有统计学意义的临界值p = 0.05。这就是所谓的p 值操纵，是一个十分严重的问题。有时他们会修改测试取得的结果。一项临床试验本来是要测量某种新药对5 年存活率的影响，但在没有存活率发现任何变化后，研究人员可能会挖掘数据，找出3 年后患者生活质量明显改善的地方。

我们在分析所收集的数据时，经常需要做出大量的选择，确定我们的研究到底应该包括哪些内容。例如，假设我想研究选举结果对美国止痛药的消费有什么影响，我可能会将选举结果制成表格，收集止痛药使用情况的调查报告，并获取止痛药在一段时间内的销售数据。这里有很多自由度。我看什么选举呢？美国总统、参议员、众议员、州长、州参议员、州众议员、市长、市议员选举，还是别的？关于消费情况，我看男性还是女性，还是两者都看？看年轻人、中年人、65 岁以上的人、青少年，还是所有这些人的消费情况？我观察的是新上任的民主党候选人的影响力，还是新上任的共和党候选人的影响力？我观察的是被人看好的候选人上任造成的影响，还是不被看好的候选人上任造成的影响？换句话说，我需要控制止痛药使用者的政治立场吗？什么才算是止痛药呢？阿司匹林、艾德维尔、泰诺、氢可酮、奥施康定，这些算不算止痛药？我是要比较同一个地方在选举前后的止痛药使用情况，还是只比较选举后不同地方的使用情况？在分析数据之前，我需要做大量的决定。考虑到这么多的组合，即使选举结果和止痛药的使用之间没有因果关系，这些组合中也很有可能至少有一个组合会显示出有统计显著性的结果。

为了避开这个陷阱，研究人员应该在查看数据之前明确说明所有这些选择，然后测试他们事先承诺的那个假设。例如，我有可能决定测试那些达到投票年龄的成年男性和女性，看看他们是否会在看好的州长候选人选举失败后服用更多的止痛药。或者，我可能会测试在共和党人取代民主党人当选美国众议院议员的那些地区，看看儿童用泰诺的销量是否会下降。无论我选择看什么，重要的是我在分析数据之前就做出明确说明。否则，通过观察足够多的不同假设，我总会得到一些有显著性的结果，即使我找不到真正的模式。

但是，我们不妨从研究者的角度看一看。假设你刚刚花了几个月的时间，收集了大量数据。你测试了你的主要假设，最终得到了一些看上去有希望但不具有显著性的结果。你知道，就这样保持不变的话，不要说优秀期刊，甚至其他所有期刊都不会发表你的研究成果。但你认为你的假设肯定是成立的，也许只是没有足够的数据支撑。所以你继续收集数据，直到你的p 值降到0.05 以下，然后你立即停止收集数据，以免它变回到阈值以上。

或者你可以尝试一些其他的统计测试。由于数据接近显著性，选择正确的测量方法和测试，也许能让你跨过p = 0.05 这道关卡。当然，稍加修改，你就找到了一种能给你带来显著结果的方法。

或者你的假设似乎只对男性成立，而有统计意义的模式被包含在你的样本里的女性淹没了。你一看，哎呀，如果只看男性，你会得到一个有统计显著性的结果。怎么办？放弃整个项目，放弃数千美元的投资，让你的研究生再推迟6个月毕业……还是只记录男性的研究结果，然后提交给优秀期刊？在这些情况下，为选择后一种做法找一个理由似乎并不是那么难。你可能会对自己说：“我确信这种趋势确实存在。我从一开始就在考虑将女性排除在研究之外。”

祝贺你。你成功地对你的研究进行了p 值操纵。

假设有1000名在诚实性方面无可挑剔的研究人员，他们在任何情况下都会拒绝p 值操纵。这些品德高尚的学者测试了上千个关于政治上取得的胜利和止痛药的使用之间是否存在关系的假设，但所有这些假设都是不成立的。在p = 0.05 这个水平上，单凭碰运气，这些假设中就有大概50 个假设会找到统计学上的支持。这50 名幸运的研究人员将研究结果写下来，发给期刊，然后被期刊接受并发表。在其余950 名研究人员中，只有少数人会不辞辛苦地写下他们的阴性结果，其中只有几个人能够发表他们的阴性结果。

读者查阅文献时，会看到有50项研究表明政治结果和止痛药消费之间存在联系，也许还有为数不多的研究称没有发现任何联系。读者会很自然地得出结论：政治对止痛药的使用有很大的影响，而那些失败的研究肯定是测量了错误的量，或者是在寻找模式时出了问题。但现实恰恰相反，两者之间没有关系。之所以看起来有关系，纯粹是人为因素导致的——哪些结果值得发表是由人决定的。

本质上讲，问题在于论文是否有发表的机会受它所报告的p 值影响。因此，我们一头撞上了选择偏倚的问题。得以发表的那些论文是全部实验的一个有偏差的样本。在文献中，有统计意义的结果被过度表现，而没有统计意义的结果则表现不足。没有产生显著性结果的实验数据最终被科学家扔进文件柜里（现在则是被扔进文件系统中）。这就是所谓的抽屉问题（file drawer effect）。

还记得古德哈特定律吗？“指标变成目标后，就不再是一个好的指标。”从某种意义上说，p 值就具有这个特点。因为p 值低于0.05 对于论文发表来说是必不可少的，所以p 值不再是衡量统计支持的好指标。如果科学论文是否发表与p 值无关，那么p 值仍将是一个有效指标，可以衡量推翻原假设时得到统计支持的程度。但是，由于期刊明显偏好那些p 值低于0.05 的论文，因此p 值已经失去了原先具有的用途。

2005 年，流行病学家约翰·约阿尼迪斯在一篇文章中总结了抽屉问题的后果，这篇文章的标题颇有挑衅性：“为什么发表的研究成果大多是虚假的”。为了解释约阿尼迪斯的观点，我们需要稍微偏离主题，探究一个被称为基率谬误的统计陷阱。

基率谬误

假设你是医生，正在治疗一位担心自己去缅因州钓鱼时染上莱姆病的年轻人。钓鱼归来以后，他感觉很不舒服，但没有莱姆病特有的环形红斑。为了让他放心，你同意检查他的血液中是否有莱姆病致病菌抗体。

令你们沮丧的是，测试结果呈阳性。测试本身相当准确，但也不是100%的准确，有5%的概率出现假阳性。那么，病人患莱姆病的概率有多大呢？

许多人，包括许多医生，都认为答案是大约95%。这是不正确的。没有莱姆病的人检测呈阴性的概率是95%，而你想知道的是检测结果呈阳性的人患莱姆病的概率。事实证明，这个概率很低，因为莱姆病非常罕见。在莱姆病流行的地区，每1000人中只有1人被感染。假设我们检测1 万人，那么可以预计有大约10个真阳性和大约0.05×10 000= 500个假阳性。在那些检测呈阳性的人中，只有不到1/50 的人真的被感染了。因此，即使检测呈阳性，患病概率也不会超过2%。

这种混淆（以为病人有95%的概率被感染，而实际上不到2%）应该是一个常见的错误。这其实是我们的“老朋友”检察官谬误，不过它换了一种表现形式。我们有时称其为基率谬误，因为在解释测试结果时，忽略了群体中患这种疾病的基础比率。

如果测试的是一种非常常见的情况，那么基率谬误不是什么大问题。假设你在为一位来自美国上中西部地区的年轻白人女性治疗胃病时，决定检查她是否有幽门螺杆菌感染。幽门螺杆菌是一种与消化性溃疡有关的胃病病原体。与莱姆病的抗体检测一样，约5%未感染者的尿素呼气试验结果呈阳性。如果你的病人检测呈阳性，那么她携带幽门螺杆菌的可能性有多大呢？也是1/50 吗？不对，这次的可能性要大得多，因为幽门螺杆菌是一种常见病原体。在美国，大约20%的白种人携带幽门螺杆菌。假设有1万人接受这种病原体的检测，那么你会看到大约2000个真阳性结果，剩下的8000人中，这个概率大约为5%，也就是大约400人会得到假阳性结果。因此，在幽门螺杆菌检测呈阳性的美国白种人中，大约5/6 的人真的携带这种病菌。

发表偏倚

说完这些，我们继续讨论约阿尼迪斯的观点。在“为什么发表的研究成果大多是虚假的”这篇论文中，约阿尼迪斯对科学研究和医学检测结果解释进行了类比。他认为，由于发表偏倚，大多数阴性研究结果都没有发表，因此我们在文献中看到的大多是阳性结果。如果科学家测试的是不可能的假设，那么大多数阳性结果应该都是假阳性，这就好像莱姆病检测结果——如果没有其他风险因素，阳性检测结果大多是假阳性。

没错儿，约阿尼迪斯就是这样想的。他的数学计算无可争论。从他的模型来看，他的结论也是正确的。他还可以从我们之前讨论过的论文中得到一定的经验支持：那些论文表明，许多发表在优秀期刊上的实验是无法复证的。如果这些实验的许多阳性结果都是假阳性，就正好符合我们的预料。

值得商榷的是约阿尼迪斯的假设。要使大多数发表的成果都是错误的，科学实验就必须像罕见疾病一样：极不可能产生真阳性结果。但科学与罕见疾病不同，因为科学家可以选择他们想要验证的假设。我们已经看到，科学家很好地适应了所在专业领域的酬偿结构：获得酬劳的主要途径是发表有意义的研究成果，而阴性结果很难发表。因此，我们可以预料科学家测试的假设虽然尚未确定，但有合理的可能性是成立的。这让我们想到幽门螺杆菌的例子，大多数的阳性结果都是真阳性。约阿尼迪斯是过于悲观了，因为他对研究人员决定检验的各种假设做出了不符合实情的假设。

当然，这都是理论上的猜测。如果我们真的想衡量发表偏倚的严重性，就需要知道：1）被测试的假设中有多大比例是正确的，2）有多大比例的阴性结果被发表了。如果两个比例都很高，我们就不用担心。如果两者都很低，那就有问题了。

我们曾说，科学家倾向于测试那些大概率是正确的假设。这种大概率可能是10%、50%或75%，但不太可能是1%或0.1%。那发表阴性结果这个方面呢？发表得多吗？在整个科学领域，发表的研究结果中大约有15%是阴性。在生物医学领域，这个比例是10%。在社会心理学领域，这个比例仅为5%。问题是，我们无法从这些数据中得知，这到底是因为心理学家更不可能发表阴性结果，还是因为他们选择了更有可能产生阳性结果的实验。我们真正想知道的不是阴性结果在发表的结果中占的比例，而是阴性结果被发表的比例。

但是，如何才能知道这个比例呢？我们必须想办法调查所有未发表的实验结果，但这些结果往往被扔进了抽屉里。美国食品药品监督管理局（FDA）的埃里克·特纳找到了一个巧妙的方法来解决这个问题。美国的法律规定，任何研究团队，只要进行临床试验（用人作为实验对象来测试治疗结果的试验），都必须向FDA 登记报备，提交文件并解释试验是要测试什么，试验将如何进行，以及结果如何测量。一旦试验完成，团队还需要向FDA 报告试验结果。不过，他们并没有被要求必须在科学期刊上发表研究结果。

这个制度为特纳和同事们统计某一特定研究领域已发表和未发表试验提供了便利。特纳列出了74 个评估12 种不同抗抑郁药物疗效的临床试验，其中51 个试验的结果已经发表，包括48 个阳性结果（药物有效）和3个阴性结果。看到这些已发表的文献后，任何一名研究人员都会认为这些抗抑郁药物通常是有效的。但在调查最初登记的所有实验后，FDA发现情况并不是人们预想的那样。一共74个试验，其中38 个产生了阳性结果，12 个产生了可疑结果，24个产生了阴性结果。看到这些数字，我们有可能得出一个更悲观的结论：似乎只有一部分抗抑郁药物在某些情况下可以起到一定作用。

这是怎么回事？为什么成功率为51% 的临床试验，最终在94% 的发表论文中被报告为成功呢？一个原因是，几乎所有的阳性结果都被发表了，而可疑或阴性结果中只有不到1/2被发表。另一个也是更重要的原因是，在已发表的14 个可疑或阴性结果中，有11 个被重新定义为阳性结果。

就像水手只能看到冰山露出水面的部分一样，研究人员在科学文献中只能看到阳性结果。因此，我们很难知道水底下有多少阴性结果。它们很难发表，即使得以发表，也常常被伪装成阳性结果。如果藏在水下的结果不多，那么我们强烈支持被测试的任何结果。但是，如果只能看到表面上的那些结果，而水底下还有大量的结果我们无法看到，我们就有可能受到严重误导。

幸运的是，有一些方法可以估计水面下的冰山大小。元分析（同时查看多项研究）就是最有效的方法之一。通过元分析，我们就可以知道发表的文献是否可能代表所有的试验，知道它们是否反映了一些有问题的行为，比如p 值操纵、发表偏倚。如何有效地做到这一点，已经成为统计学研究的一个热门领域。

话题：