财新传媒 财新传媒

阅读:0
听报道

在学术界普遍焦虑于“不发表就灭亡”的今天,一位h指数88、年产15篇论文的资深学者却做出了一个令人费解的决定:他要把自己的论文产出砍掉一半。这不是学术"躺平",而是一场基于8年系统研究的改革实验。

撰文 | 木木

“90%的科学研究都是垃圾。”

这不是来自学术批评者的攻击,也不是媒体的耸人听闻,而是一位h指数88、总被引次数超过3.5万次的资深学者的自我反思。

2025年1月7日,澳大利亚昆士兰科技大学教授Adrian Barnett在其个人博客Median Watch上发表了一篇题为“90% of scientific research is crap”的文章。在这篇文章中,他引用了“Sturgeon定律”和学术界关于研究浪费的数据,为这一惊人论断提供了证据支持。

一年后,2026年1月19日,Nature杂志职业专栏发表了Barnett的另一篇文章:I'm going to halve my publication output(我将把我的出版产出减半),宣布了一个不同寻常的决定:他将把自己的年出版论文数从过去五年的15篇减少到7篇。

这篇Nature文章的页面 | 图源:Nature

在Nature文章中,Barnett还提出了支撑其“减产”决定的三个核心论断:出版系统正在经历不可持续的膨胀、研究质量正在下降、系统面临崩溃风险。

这些论断并非哗众取宠。作为澳大利亚社会科学院院士(FASSA)、跨学科元研究与开放科学协会(AIMOS)主席,统计学家和元研究专家,Barnett在过去十年间发表了一系列涵盖统计学、元研究和研究完整性的发现,系统地揭示了学术出版系统的问题。

本文将重点回顾这些研究,展示他如何通过数据和证据一步步构建起对当前学术系统的批判,以及为何他最终选择用“减产”来回应这场危机。 

规模有多大:85%的研究是浪费

Barnett的“90%垃圾论”并非空穴来风。他引用了两个相互印证的观点。

第一个是“Sturgeon定律”——由20世纪美国科幻小说作家Theodore Sturgeon提出的著名论断:“90%的一切都是垃圾”(Ninety percent of everything is crap)。Barnett认为,这个原本用于科幻小说评论的定律,同样适用于科研领域。

第二个更为严峻的数据来自学术界自身的研究。2009年,牛津大学的Iain Chalmers和邦德大学的Paul Glasziou在《柳叶刀》杂志发表研究估计,87.5%的健康和医学研究是浪费的。这个数字与Sturgeon的90%惊人相似。

这近85%的研究浪费主要来自四个方面:研究未能发表(尤其是“阴性”结果)、研究设计存在缺陷、研究问题已被充分回答、研究报告不完整或不清晰。

如果用金钱来衡量,这个85%的浪费比例意味着什么?

Chalmers和Glasziou在2009年的原始论文中指出,当时全球每年在生物医学研究上的投资超过1000亿美元。如果其中85%是浪费的,意味着每年至少有850亿美元的研究投资未能产生相应的知识回报。十多年后,全球生物医学研究投资规模已大幅增长。仅美国国立卫生研究院(NIH)2024财年预算就达到约470亿美元,加上其他国家政府投入、私人企业、制药公司和慈善机构的投资,全球总投资规模保守估计已远超2000亿美元。如果85%的浪费比例依然存在,其绝对金额将更加惊人。

更重要的是,这种浪费不仅仅是金钱的损失。它意味着研究人员的时间和精力被错误配置,患者和公众对科学的信任可能受损,真正重要的研究问题可能被忽视,政策制定缺乏可靠的证据基础。

不过,Barnett在使用“垃圾”这个词时,也保持了学者的严谨。他承认这个说法“夸张和不公平”,因为“垃圾是有层次的”。

他区分了三个层次:最底层是彻底的欺诈研究和论文工厂产品,对科学诚信构成直接威胁;中间层包括因可避免的错误而产生的研究,初衷可能是好的,但未能实现其价值;顶层是他称之为“垃圾中的精华”的研究,虽未能回答原定问题,但提供了有价值的学习。在某种意义上,科学进步正是建立在这种“有价值的失败”之上的。

虽然Barnett认为90%的研究是垃圾,但他也强调,剩余10%的优秀研究成果使整个研究事业变得有价值。他没有止步于批评他人,而是用同样的标准审视自己:“我的大部分已发表研究都是平庸的。”

他给年轻研究者提供了一个现实的期望值:“如果他们以两三个真正的突破结束职业生涯,那将是一个非凡的职业生涯。”这个建议隐含着一个重要信息:学术价值不在于论文数量,而在于真正有意义的贡献。 

增长有多快:出版膨胀的证据

在Nature文章中,Barnett提供了出版膨胀的确凿证据。PubMed数据库在2014年索引了约120万篇文章,到2024年已超过170万篇,十年间增长40%以上。这意味着2024年每分钟约有3.2篇新论文发表。

还有一个惊人的现象是“超级高产者”。根据斯坦福大学John Ioannidis等人2024年发表在Scientometrics上的研究,一些“超级高产者”每年发表超过60篇论文,平均每周至少一篇。考虑到一篇高质量论文需要经历文献回顾、数据收集、分析、撰写、评审等漫长周期,要在一年内完成60篇论文的全流程,似乎只能通过降低质量标准来实现。

Mark A. Hanson等人2024年发表在Quantitative Science Studies上的研究,指出同行评审系统正在承受巨大压力,审稿周期延长,审稿质量下降。这形成了恶性循环:论文越多,审稿人越不堪重负,审稿质量越差,低质量论文越容易通过,从而鼓励更多人发表更多论文。

图:按出版商划分的年度文章发表总数|图源:Quantitative Science Studies

驱动出版膨胀的不只是个人压力,还有制度性因素。2022年,Barnett等人在eLife杂志上发表的研究发现,职业中断期间产出减少会显著影响资助成功率。这是个悖论:我们口头上都说重视质量,但制度设计实际上在奖励数量。

当然,论文数量增长本身不是问题。问题在于质量正在下降,系统已经出现崩溃迹象——同行评审过载、低质量论文激增、学术不端问题加剧,而增长主要由“不发表就灭亡”压力驱动,不是真实的科学进步。Barnett警告:“如果我们不放慢速度,出版系统的更多部分将会崩溃,科学进步将被阻碍。” 

质量有多糟:系统失灵的实证

出版膨胀带来的不只是数量问题,还导致了质量的系统性下降。Barnett通过一系列研究揭示了质量危机的具体证据。2023年7月18日,他在博客上发表了一篇短文,讲述他在PubMed数据库中搜索“statically significant”这个错误拼写(正确应为“statistically significant”),结果令人震惊:975篇已发表的论文使用了这个错误的术语。

这些论文通过了作者、合作者、审稿人、编辑的层层审核——整个质量控制链条都失灵了。Barnett指出:“这是评审系统已经不堪重负的证据。”在巨大的审稿压力下,审稿人不再仔细阅读论文,只是快速浏览,检查大致结构和主要结论。

更严重的质量问题,体现在P值分布的异常上。2022年9月19日,Barnett在博客上发表了文章。文中引用了莱顿大学Erik van Zwet等研究者的工作,这些研究者分析了超过110万个Z值(统计检验的标准化得分)的分布,发现在统计显著性阈值附近出现了异常的尖峰。这种异常可能源于三种情况:只发表显著结果的出版偏倚、通过调整分析方法获得显著结果的P-hacking、或者直接的数据造假。

Barnett认为,无论是哪种原因,这种异常模式都表明“大量已发表研究存在问题”。这是基于110万个数据点的实证发现,意味着相当比例的已发表研究,其“显著”结果可能是不可靠的。

统计学家还能从“过于完美”的数据中发现造假线索。2025年4月23日,Barnett在博文中展示了这一方法。在随机对照试验中,真实数据会有自然的随机变异,但造假者往往制造出过于一致的数据。他提出了用统计方法来检测这种“太完美而不真实”的数据。

这揭示了一个令人不安的事实:论文工厂的问题已经严重到需要开发专门的统计检测工具,而传统的同行评审未能识别这些问题。

质量危机也体现在科学交流的退化上。2020年,Barnett和南澳大学的Zoe Doubleday在eLife杂志上发表了一项研究,分析了2400万篇文章标题和1800万篇摘要,追踪了近70年的缩写使用趋势。研究发现缩写密度急剧增长:在摘要中从1956年的每100词0.4个增长到2019年的4.1个,增长了10倍。

问题还不止于此。独特缩写总数超过100万个,但79%的缩写使用少于10次。这导致学科碎片化、可读性下降、知识传播障碍。当科学家们忙于发表尽可能多的论文时,牺牲了清晰表达和有效交流。

Barnett的这些研究所揭示的,不是几个孤立的案例,而是整个系统在巨大压力下的多方面失灵。 

根源在哪里:扭曲的激励机制

前面的研究揭示了质量危机的“症状”,而Barnett在2018年发表的一项研究深入探讨了“病因”。

这项研究使用计算机模拟来理解学术系统的动力学。模型显示,在没有质量控制干预的情况下,仅有0.2%的模拟避免了“竞争螺旋”,其余几乎所有模拟都陷入恶性竞争。这揭示了一个类似“囚徒困境”的机制:当其他实验室采取宽松标准时,坚持严格标准的实验室会在竞争中处于不利地位,最终被迫降低标准以求生存。这不是个别研究者的道德问题,而是激励结构导致的集体困境。

但研究也发现了希望。当引入随机审计机制后,情况发生戏剧性变化,大多数模拟避免了竞争螺旋。其核心洞察是:问题不在于个人,而在于系统。相对小规模的制度干预就可以改变整体动力学。

除了内在的竞争压力,大学排名系统是放大压力的外部机制。2022年,Barnett和英国莱斯特大学的Elizabeth Gadd在Significance杂志上发表文章。他们指出,排名建立在薄弱的统计基础之上,过度依赖容易量化的指标(论文数量、引用次数、h指数等),而这些指标不能充分反映研究质量。这形成了恶性循环:排名激励数量,数量导致质量下降,但排名系统本身不足以识别质量问题,因此继续奖励数量。

另一个扭曲学术评价的因素是期刊影响因子崇拜。2024年8月,Barnett在Nature上发表文章指出,当前的评价逻辑是“论文价值=发表期刊的影响因子”。这导致研究人员优先考虑期刊声望而非研究本身,评价者通过期刊名称而非内容判断质量。Barnett举例:大多数人不记得DNA双螺旋结构发表在哪个期刊,但这重要吗?Watson和Crick的发现改变了生物学,期刊名称只是历史细节。

作为回应,Barnett在其个人简历中删除所有论文的期刊名称,只保留标题、作者和年份,强迫评价者真正阅读研究内容。

综合Barnett的这些研究,我们看到了一个相互强化的系统性问题,即在激励机制的扭曲方面:“不发表就灭亡”的压力导致竞争螺旋;大学排名系统奖励数量,而非质量;期刊影响因子崇拜使人们关注where,而非what。

这些扭曲的激励机制导致的结果是:研究人员被迫追求数量,牺牲质量控制,低质量论文激增,系统进入恶性循环。这不是某个国家或某个机构的问题,而是全球学术系统共同面临的结构性危机。Barnett的研究表明,这个危机有明确的根源,也有可能的解决方案。

出路在何方:解决方案与改革主张

面对系统性问题,Barnett除了动嘴批评,还在动手推进改革。作为跨学科元研究与开放科学协会(AIMOS)的主席,他参与推动了多项改革倡议。

《研究评估旧金山宣言》(San Francisco Declaration on Research Assessment, DORA)成立于2012年,核心主张是:不要用期刊影响因子评价个人研究者。期刊影响因子是期刊层面的统计数据,不能用来评价单篇论文或个人研究者。Barnett以个人行动支持这一理念:从简历中删除期刊名称。

《研究评估改革联盟》(Coalition for Advancing Research Assessment, CoARA)则提出了更全面的改革建议:使用定性评估而非简单计量指标,避免使用大学排名,关注研究对科学知识、社会实践、政策制定的真实贡献。作为AIMOS主席,Barnett参与推动这些理念在澳大利亚和国际学术界的实施。

这些理念并非空谈。澳大利亚国家卫生与医学研究委员会(NHMRC)已在实践这一理念。NHMRC在评估资助申请人时,考察的是过去十年的10篇最佳论文,而非全部论文。这明确鼓励质量优于数量,为“慢科学”提供了制度空间。尽管竞争依然激烈(2025年,成功率仅12%),Barnett相信:“发表更少但更好的论文不应损害成功机会。”

图源:Julia Wiethüchter/Universität Münster

基于2018年PLOS ONE研究,Barnett还提出了具体的质量控制机制:随机审计系统。他建议随机抽查1.35%-1.94%的已发表论文,深度检查数据、方法、分析的真实性和准确性。这一机制可产生威慑效应、提高研究标准、防止“竞争螺旋”。相对于NIH年度预算,1590万美元的审计成本占比不到0.04%。正如交警不需要检查每一辆车就能影响驾驶行为,随机审计也无需检查每一篇论文就能改变研究文化。

制度改革固然重要,但Barnett强调,最终需要的是文化层面的转变:把严谨性放在速度之上,把质量放在数量之上。他呼吁:“资助者和大学最有能力给出版系统踩刹车。”同时警告:“如果我们不放慢速度,出版系统的更多部分将会崩溃,科学进步将被阻碍。”

从这些研究和倡导中,可以看到一个清晰的改革路径:资助机构采用“最佳论文”评估制度,大学修改晋升和考核标准,实施研究质量随机审计,推动学术界采纳DORA和CoARA原则,最终让“慢科学”成为主流价值观,质量优于数量成为共识。

但Barnett清醒地认识到,这些改革需要多方共同努力。正是在这种背景下,他决定拿自己开刀。 

从批评到行动:一场“慢科学”实验

Barnett宣布减少自己的论文发表数量,不是模糊的“我会更注重质量”的表态,而是一个明确的、可追踪和验证的数字目标。

Barnett写道:“我不会减少研究时间。相反,我会大约翻倍每篇论文的投入时间。”增加的时间将用于背景文献阅读、与利益相关者(如患者、政策制定者)的咨询、测试和验证模型,以及更深入思考研究对公共卫生实践的意义。这就是“慢科学”的具体化:不是做得更少,是做得更深入。

当然,Barnett坦承自己拥有做出这一选择的特权:终身教职、已建立的学术声誉、无需为晋升竞争。但他认为,这种特权伴随着责任——正因为有能力承担风险,才更应该为后来者探路。即使NHMRC资助的申请成功率仅12%,他相信高质量的论文不会损害竞争力。这正是他要验证的假设。

这也是一场可追踪的实验。作为统计学家,Barnett清楚这是一个样本量为1的实验,外部效度有限;但作为改革者,他也深知改变需要有人迈出第一步。他的这一决定将接受时间的检验:资助成功率是否维持、学术影响力能否保持、对年轻学者的示范效应,以及对制度改革的推动作用。

这个“减产”决定也并非突发奇想。他的目标是将科学方法应用于科学系统本身,最终选择用自己的职业生涯进行一场元实验——验证“慢科学”在当前学术体系下是否可行。

正如Barnett在2026年Nature文章的结尾写道:“我将把我的出版产出减半。你也应该考虑慢科学。”这是基于多年系统研究的理性建议,不是感性呼吁。他的“减产”是对系统问题的回应,同时也是一场可验证的实验:无论成功与否,都将为“慢科学”的可行性提供真实数据。

Barnett保持着现实主义的清醒:“像我这样的个人行动,在庞大的出版体系中不过是杯水车薪,真正能够起到制衡作用的是资助机构和大学,而且改革需要制度性变革。“但他相信,个人行动仍能提出问题、引发讨论,为改革创造氛围。

这个故事也给学术界留下了几个无法回避的问题:资助机构和大学,是否准备好修改激励结构,真正鼓励质量而非数量?整个学术界,是继续加速直到系统崩溃,还是有勇气慢下来重建质量?在出版膨胀的时代,科学研究是在产生更多知识,还是在制造更多噪音?

正如Barnett在博客中所言,即使自己大部分工作是平庸的,只要有一部分能推动一些改变,就是值得的。而对于读到这篇文章的人来说,或许思考这些问题本身,就已经是改变的开始。

图:Adrian Barnett(来源:Barnett的Median Watch博客)

注:本文所有引用均来自Adrian Barnett公开发表的研究、文章和博客。Barnett是元研究领域的活跃研究者,他的Median Watch博客(https://medianwatch.netlify.app/)持续更新关于学术出版系统的观察和分析。对他的“减产”实验感兴趣的读者,可以关注他后续的研究和文章。

参考文献

[1] Barnett, A. (2025, January 7). 90% of scientific research is crap. Median Watch. https://medianwatch.netlify.app/post/sturgeon/

[2] Chalmers, I., & Glasziou, P. (2009). Avoidable waste in the production and reporting of research evidence. The Lancet, 374(9683), 86-89. https://doi.org/10.1016/S0140-6736(09)60329-9

[3] Barnett, A. (2026, January 19). I'm going to halve my publication output. You should consider slow science, too. Nature. https://doi.org/10.1038/d41586-025-04061-w

[4] Barnett, A., Page, K., Dyer, C., & Cramb, S. (2022). Meta-research: Justifying career disruption in funding applications, a survey of Australian researchers. eLife, 11, e76123. https://doi.org/10.7554/eLife.76123

[5] Barnett, A. (2023, July 18). Statically significant. Median Watch. https://medianwatch.netlify.app/post/statically_significant/

[6] Barnett, A. (2022, September 19). Publication bias or research misconduct? Median Watch. https://medianwatch.netlify.app/post/z_values/

[7] Barnett, A. (2025, April 23). Testing baseline tables in trials for signs of fraud. Median Watch. https://medianwatch.netlify.app/post/baseline_testing/

[8] Barnett, A., & Doubleday, Z. (2020). The growth of acronyms in the scientific literature. eLife, 9, e60080. https://doi.org/10.7554/eLife.60080

[9] Barnett, A. G., Zardo, P., & Graves, N. (2018). Randomly auditing research labs could be an affordable way to improve research quality: A simulation study. PLOS ONE, 13(4), e0195613. https://doi.org/10.1371/journal.pone.0195613

[10] Barnett, A., & Gadd, E. (2022). University league tables have no legs to stand on. Significance, 19(4), 4-5. https://doi.org/10.1111/1740-9713.01663

[11] Barnett, A. (2024, August 9). Why I've removed journal titles from the papers on my CV. Nature. https://doi.org/10.1038/d41586-024-02596-y

[12] Mark A. Hanson, Pablo Gómez Barreiro, Paolo Crosetto, Dan Brockington; The strain on scientific publishing. Quantitative Science Studies 2024; 5 (4): 823–843. doi: https://doi.org/10.1162/qss_a_00327

话题:



0

推荐

返朴

返朴

2965篇文章 1分钟前更新

科学新媒体“返朴”,科普中国子品牌,倡导“溯源守拙,问学求新”。

文章