“90%的科研都是垃圾！”这位学者拿自己开刀，要把论文数量砍一半-返朴的财新博客-财新网

在学术界普遍焦虑于“不发表就灭亡”的今天，一位h指数88、年产15篇论文的资深学者却做出了一个令人费解的决定：他要把自己的论文产出砍掉一半。这不是学术"躺平"，而是一场基于8年系统研究的改革实验。

撰文 | 木木

“90%的科学研究都是垃圾。”

这不是来自学术批评者的攻击，也不是媒体的耸人听闻，而是一位h指数88、总被引次数超过3.5万次的资深学者的自我反思。

2025年1月7日，澳大利亚昆士兰科技大学教授Adrian Barnett在其个人博客Median Watch上发表了一篇题为“90% of scientific research is crap”的文章。在这篇文章中，他引用了“Sturgeon定律”和学术界关于研究浪费的数据，为这一惊人论断提供了证据支持。

一年后，2026年1月19日，Nature杂志职业专栏发表了Barnett的另一篇文章：I'm going to halve my publication output（我将把我的出版产出减半），宣布了一个不同寻常的决定：他将把自己的年出版论文数从过去五年的15篇减少到7篇。

这篇Nature文章的页面 | 图源：Nature

在Nature文章中，Barnett还提出了支撑其“减产”决定的三个核心论断：出版系统正在经历不可持续的膨胀、研究质量正在下降、系统面临崩溃风险。

这些论断并非哗众取宠。作为澳大利亚社会科学院院士（FASSA）、跨学科元研究与开放科学协会（AIMOS）主席，统计学家和元研究专家，Barnett在过去十年间发表了一系列涵盖统计学、元研究和研究完整性的发现，系统地揭示了学术出版系统的问题。

本文将重点回顾这些研究，展示他如何通过数据和证据一步步构建起对当前学术系统的批判，以及为何他最终选择用“减产”来回应这场危机。

规模有多大：85%的研究是浪费

Barnett的“90%垃圾论”并非空穴来风。他引用了两个相互印证的观点。

第一个是“Sturgeon定律”——由20世纪美国科幻小说作家Theodore Sturgeon提出的著名论断：“90%的一切都是垃圾”（Ninety percent of everything is crap）。Barnett认为，这个原本用于科幻小说评论的定律，同样适用于科研领域。

第二个更为严峻的数据来自学术界自身的研究。2009年，牛津大学的Iain Chalmers和邦德大学的Paul Glasziou在《柳叶刀》杂志发表研究估计，87.5%的健康和医学研究是浪费的。这个数字与Sturgeon的90%惊人相似。

这近85%的研究浪费主要来自四个方面：研究未能发表（尤其是“阴性”结果）、研究设计存在缺陷、研究问题已被充分回答、研究报告不完整或不清晰。

如果用金钱来衡量，这个85%的浪费比例意味着什么？

Chalmers和Glasziou在2009年的原始论文中指出，当时全球每年在生物医学研究上的投资超过1000亿美元。如果其中85%是浪费的，意味着每年至少有850亿美元的研究投资未能产生相应的知识回报。十多年后，全球生物医学研究投资规模已大幅增长。仅美国国立卫生研究院（NIH）2024财年预算就达到约470亿美元，加上其他国家政府投入、私人企业、制药公司和慈善机构的投资，全球总投资规模保守估计已远超2000亿美元。如果85%的浪费比例依然存在，其绝对金额将更加惊人。

更重要的是，这种浪费不仅仅是金钱的损失。它意味着研究人员的时间和精力被错误配置，患者和公众对科学的信任可能受损，真正重要的研究问题可能被忽视，政策制定缺乏可靠的证据基础。

不过，Barnett在使用“垃圾”这个词时，也保持了学者的严谨。他承认这个说法“夸张和不公平”，因为“垃圾是有层次的”。

他区分了三个层次：最底层是彻底的欺诈研究和论文工厂产品，对科学诚信构成直接威胁；中间层包括因可避免的错误而产生的研究，初衷可能是好的，但未能实现其价值；顶层是他称之为“垃圾中的精华”的研究，虽未能回答原定问题，但提供了有价值的学习。在某种意义上，科学进步正是建立在这种“有价值的失败”之上的。

虽然Barnett认为90%的研究是垃圾，但他也强调，剩余10%的优秀研究成果使整个研究事业变得有价值。他没有止步于批评他人，而是用同样的标准审视自己：“我的大部分已发表研究都是平庸的。”

他给年轻研究者提供了一个现实的期望值：“如果他们以两三个真正的突破结束职业生涯，那将是一个非凡的职业生涯。”这个建议隐含着一个重要信息：学术价值不在于论文数量，而在于真正有意义的贡献。

增长有多快：出版膨胀的证据

在Nature文章中，Barnett提供了出版膨胀的确凿证据。PubMed数据库在2014年索引了约120万篇文章，到2024年已超过170万篇，十年间增长40%以上。这意味着2024年每分钟约有3.2篇新论文发表。

还有一个惊人的现象是“超级高产者”。根据斯坦福大学John Ioannidis等人2024年发表在Scientometrics上的研究，一些“超级高产者”每年发表超过60篇论文，平均每周至少一篇。考虑到一篇高质量论文需要经历文献回顾、数据收集、分析、撰写、评审等漫长周期，要在一年内完成60篇论文的全流程，似乎只能通过降低质量标准来实现。

Mark A. Hanson等人2024年发表在Quantitative Science Studies上的研究，指出同行评审系统正在承受巨大压力，审稿周期延长，审稿质量下降。这形成了恶性循环：论文越多，审稿人越不堪重负，审稿质量越差，低质量论文越容易通过，从而鼓励更多人发表更多论文。

图：按出版商划分的年度文章发表总数｜图源：Quantitative Science Studies

驱动出版膨胀的不只是个人压力，还有制度性因素。2022年，Barnett等人在eLife杂志上发表的研究发现，职业中断期间产出减少会显著影响资助成功率。这是个悖论：我们口头上都说重视质量，但制度设计实际上在奖励数量。

当然，论文数量增长本身不是问题。问题在于质量正在下降，系统已经出现崩溃迹象——同行评审过载、低质量论文激增、学术不端问题加剧，而增长主要由“不发表就灭亡”压力驱动，不是真实的科学进步。Barnett警告：“如果我们不放慢速度，出版系统的更多部分将会崩溃，科学进步将被阻碍。”

质量有多糟：系统失灵的实证

出版膨胀带来的不只是数量问题，还导致了质量的系统性下降。Barnett通过一系列研究揭示了质量危机的具体证据。2023年7月18日，他在博客上发表了一篇短文，讲述他在PubMed数据库中搜索“statically significant”这个错误拼写（正确应为“statistically significant”），结果令人震惊：975篇已发表的论文使用了这个错误的术语。

这些论文通过了作者、合作者、审稿人、编辑的层层审核——整个质量控制链条都失灵了。Barnett指出：“这是评审系统已经不堪重负的证据。”在巨大的审稿压力下，审稿人不再仔细阅读论文，只是快速浏览，检查大致结构和主要结论。

更严重的质量问题，体现在P值分布的异常上。2022年9月19日，Barnett在博客上发表了文章。文中引用了莱顿大学Erik van Zwet等研究者的工作，这些研究者分析了超过110万个Z值（统计检验的标准化得分）的分布，发现在统计显著性阈值附近出现了异常的尖峰。这种异常可能源于三种情况：只发表显著结果的出版偏倚、通过调整分析方法获得显著结果的P-hacking、或者直接的数据造假。

Barnett认为，无论是哪种原因，这种异常模式都表明“大量已发表研究存在问题”。这是基于110万个数据点的实证发现，意味着相当比例的已发表研究，其“显著”结果可能是不可靠的。

统计学家还能从“过于完美”的数据中发现造假线索。2025年4月23日，Barnett在博文中展示了这一方法。在随机对照试验中，真实数据会有自然的随机变异，但造假者往往制造出过于一致的数据。他提出了用统计方法来检测这种“太完美而不真实”的数据。

这揭示了一个令人不安的事实：论文工厂的问题已经严重到需要开发专门的统计检测工具，而传统的同行评审未能识别这些问题。

质量危机也体现在科学交流的退化上。2020年，Barnett和南澳大学的Zoe Doubleday在eLife杂志上发表了一项研究，分析了2400万篇文章标题和1800万篇摘要，追踪了近70年的缩写使用趋势。研究发现缩写密度急剧增长：在摘要中从1956年的每100词0.4个增长到2019年的4.1个，增长了10倍。

问题还不止于此。独特缩写总数超过100万个，但79%的缩写使用少于10次。这导致学科碎片化、可读性下降、知识传播障碍。当科学家们忙于发表尽可能多的论文时，牺牲了清晰表达和有效交流。

Barnett的这些研究所揭示的，不是几个孤立的案例，而是整个系统在巨大压力下的多方面失灵。

根源在哪里：扭曲的激励机制

前面的研究揭示了质量危机的“症状”，而Barnett在2018年发表的一项研究深入探讨了“病因”。

这项研究使用计算机模拟来理解学术系统的动力学。模型显示，在没有质量控制干预的情况下，仅有0.2%的模拟避免了“竞争螺旋”，其余几乎所有模拟都陷入恶性竞争。这揭示了一个类似“囚徒困境”的机制：当其他实验室采取宽松标准时，坚持严格标准的实验室会在竞争中处于不利地位，最终被迫降低标准以求生存。这不是个别研究者的道德问题，而是激励结构导致的集体困境。

但研究也发现了希望。当引入随机审计机制后，情况发生戏剧性变化，大多数模拟避免了竞争螺旋。其核心洞察是：问题不在于个人，而在于系统。相对小规模的制度干预就可以改变整体动力学。

除了内在的竞争压力，大学排名系统是放大压力的外部机制。2022年，Barnett和英国莱斯特大学的Elizabeth Gadd在Significance杂志上发表文章。他们指出，排名建立在薄弱的统计基础之上，过度依赖容易量化的指标（论文数量、引用次数、h指数等），而这些指标不能充分反映研究质量。这形成了恶性循环：排名激励数量，数量导致质量下降，但排名系统本身不足以识别质量问题，因此继续奖励数量。

另一个扭曲学术评价的因素是期刊影响因子崇拜。2024年8月，Barnett在Nature上发表文章指出，当前的评价逻辑是“论文价值=发表期刊的影响因子”。这导致研究人员优先考虑期刊声望而非研究本身，评价者通过期刊名称而非内容判断质量。Barnett举例：大多数人不记得DNA双螺旋结构发表在哪个期刊，但这重要吗？Watson和Crick的发现改变了生物学，期刊名称只是历史细节。

作为回应，Barnett在其个人简历中删除所有论文的期刊名称，只保留标题、作者和年份，强迫评价者真正阅读研究内容。

综合Barnett的这些研究，我们看到了一个相互强化的系统性问题，即在激励机制的扭曲方面：“不发表就灭亡”的压力导致竞争螺旋；大学排名系统奖励数量，而非质量；期刊影响因子崇拜使人们关注where，而非what。

这些扭曲的激励机制导致的结果是：研究人员被迫追求数量，牺牲质量控制，低质量论文激增，系统进入恶性循环。这不是某个国家或某个机构的问题，而是全球学术系统共同面临的结构性危机。Barnett的研究表明，这个危机有明确的根源，也有可能的解决方案。

出路在何方：解决方案与改革主张

面对系统性问题，Barnett除了动嘴批评，还在动手推进改革。作为跨学科元研究与开放科学协会（AIMOS）的主席，他参与推动了多项改革倡议。

《研究评估旧金山宣言》（San Francisco Declaration on Research Assessment, DORA）成立于2012年，核心主张是：不要用期刊影响因子评价个人研究者。期刊影响因子是期刊层面的统计数据，不能用来评价单篇论文或个人研究者。Barnett以个人行动支持这一理念：从简历中删除期刊名称。

《研究评估改革联盟》（Coalition for Advancing Research Assessment, CoARA）则提出了更全面的改革建议：使用定性评估而非简单计量指标，避免使用大学排名，关注研究对科学知识、社会实践、政策制定的真实贡献。作为AIMOS主席，Barnett参与推动这些理念在澳大利亚和国际学术界的实施。

这些理念并非空谈。澳大利亚国家卫生与医学研究委员会（NHMRC）已在实践这一理念。NHMRC在评估资助申请人时，考察的是过去十年的10篇最佳论文，而非全部论文。这明确鼓励质量优于数量，为“慢科学”提供了制度空间。尽管竞争依然激烈（2025年，成功率仅12%），Barnett相信：“发表更少但更好的论文不应损害成功机会。”

图源：Julia Wiethüchter/Universität Münster

基于2018年PLOS ONE研究，Barnett还提出了具体的质量控制机制：随机审计系统。他建议随机抽查1.35%-1.94%的已发表论文，深度检查数据、方法、分析的真实性和准确性。这一机制可产生威慑效应、提高研究标准、防止“竞争螺旋”。相对于NIH年度预算，1590万美元的审计成本占比不到0.04%。正如交警不需要检查每一辆车就能影响驾驶行为，随机审计也无需检查每一篇论文就能改变研究文化。

制度改革固然重要，但Barnett强调，最终需要的是文化层面的转变：把严谨性放在速度之上，把质量放在数量之上。他呼吁：“资助者和大学最有能力给出版系统踩刹车。”同时警告：“如果我们不放慢速度，出版系统的更多部分将会崩溃，科学进步将被阻碍。”

从这些研究和倡导中，可以看到一个清晰的改革路径：资助机构采用“最佳论文”评估制度，大学修改晋升和考核标准，实施研究质量随机审计，推动学术界采纳DORA和CoARA原则，最终让“慢科学”成为主流价值观，质量优于数量成为共识。

但Barnett清醒地认识到，这些改革需要多方共同努力。正是在这种背景下，他决定拿自己开刀。

从批评到行动：一场“慢科学”实验

Barnett宣布减少自己的论文发表数量，不是模糊的“我会更注重质量”的表态，而是一个明确的、可追踪和验证的数字目标。

Barnett写道：“我不会减少研究时间。相反，我会大约翻倍每篇论文的投入时间。”增加的时间将用于背景文献阅读、与利益相关者（如患者、政策制定者）的咨询、测试和验证模型，以及更深入思考研究对公共卫生实践的意义。这就是“慢科学”的具体化：不是做得更少，是做得更深入。

当然，Barnett坦承自己拥有做出这一选择的特权：终身教职、已建立的学术声誉、无需为晋升竞争。但他认为，这种特权伴随着责任——正因为有能力承担风险，才更应该为后来者探路。即使NHMRC资助的申请成功率仅12%，他相信高质量的论文不会损害竞争力。这正是他要验证的假设。

这也是一场可追踪的实验。作为统计学家，Barnett清楚这是一个样本量为1的实验，外部效度有限；但作为改革者，他也深知改变需要有人迈出第一步。他的这一决定将接受时间的检验：资助成功率是否维持、学术影响力能否保持、对年轻学者的示范效应，以及对制度改革的推动作用。

这个“减产”决定也并非突发奇想。他的目标是将科学方法应用于科学系统本身，最终选择用自己的职业生涯进行一场元实验——验证“慢科学”在当前学术体系下是否可行。

正如Barnett在2026年Nature文章的结尾写道：“我将把我的出版产出减半。你也应该考虑慢科学。”这是基于多年系统研究的理性建议，不是感性呼吁。他的“减产”是对系统问题的回应，同时也是一场可验证的实验：无论成功与否，都将为“慢科学”的可行性提供真实数据。

Barnett保持着现实主义的清醒：“像我这样的个人行动，在庞大的出版体系中不过是杯水车薪，真正能够起到制衡作用的是资助机构和大学，而且改革需要制度性变革。“但他相信，个人行动仍能提出问题、引发讨论，为改革创造氛围。

这个故事也给学术界留下了几个无法回避的问题：资助机构和大学，是否准备好修改激励结构，真正鼓励质量而非数量？整个学术界，是继续加速直到系统崩溃，还是有勇气慢下来重建质量？在出版膨胀的时代，科学研究是在产生更多知识，还是在制造更多噪音？

正如Barnett在博客中所言，即使自己大部分工作是平庸的，只要有一部分能推动一些改变，就是值得的。而对于读到这篇文章的人来说，或许思考这些问题本身，就已经是改变的开始。

图：Adrian Barnett（来源：Barnett的Median Watch博客）

注：本文所有引用均来自Adrian Barnett公开发表的研究、文章和博客。Barnett是元研究领域的活跃研究者，他的Median Watch博客（https://medianwatch.netlify.app/）持续更新关于学术出版系统的观察和分析。对他的“减产”实验感兴趣的读者，可以关注他后续的研究和文章。

参考文献

[1] Barnett, A. (2025, January 7). 90% of scientific research is crap. Median Watch. https://medianwatch.netlify.app/post/sturgeon/

[2] Chalmers, I., & Glasziou, P. (2009). Avoidable waste in the production and reporting of research evidence. The Lancet, 374(9683), 86-89. https://doi.org/10.1016/S0140-6736(09)60329-9

[3] Barnett, A. (2026, January 19). I'm going to halve my publication output. You should consider slow science, too. Nature. https://doi.org/10.1038/d41586-025-04061-w

[4] Barnett, A., Page, K., Dyer, C., & Cramb, S. (2022). Meta-research: Justifying career disruption in funding applications, a survey of Australian researchers. eLife, 11, e76123. https://doi.org/10.7554/eLife.76123

[5] Barnett, A. (2023, July 18). Statically significant. Median Watch. https://medianwatch.netlify.app/post/statically_significant/

[6] Barnett, A. (2022, September 19). Publication bias or research misconduct? Median Watch. https://medianwatch.netlify.app/post/z_values/

[7] Barnett, A. (2025, April 23). Testing baseline tables in trials for signs of fraud. Median Watch. https://medianwatch.netlify.app/post/baseline_testing/

[8] Barnett, A., & Doubleday, Z. (2020). The growth of acronyms in the scientific literature. eLife, 9, e60080. https://doi.org/10.7554/eLife.60080

[9] Barnett, A. G., Zardo, P., & Graves, N. (2018). Randomly auditing research labs could be an affordable way to improve research quality: A simulation study. PLOS ONE, 13(4), e0195613. https://doi.org/10.1371/journal.pone.0195613

[10] Barnett, A., & Gadd, E. (2022). University league tables have no legs to stand on. Significance, 19(4), 4-5. https://doi.org/10.1111/1740-9713.01663

[11] Barnett, A. (2024, August 9). Why I've removed journal titles from the papers on my CV. Nature. https://doi.org/10.1038/d41586-024-02596-y

[12] Mark A. Hanson, Pablo Gómez Barreiro, Paolo Crosetto, Dan Brockington; The strain on scientific publishing. Quantitative Science Studies 2024; 5 (4): 823–843. doi: https://doi.org/10.1162/qss_a_00327

话题：