财新传媒 财新传媒

阅读:0
听报道

36%,17万,这是让中国科研界无法回避的数字。 

2026年1月30日,《英国医学杂志》发表了一项震撼学术界的研究。研究显示在1999年至2024年间发表的中国癌症研究论文中,超过17万篇被人工智能标记为疑似论文工厂产物,比例高达36%。 

这意味着每3篇中国癌症研究论文中,就有超过1篇被AI识别为可能存在诚信问题。

当然,这项研究并非针对中国,而是展示了一个系统性问题的冰山一角。在这项研究扫描的全球超过260万篇癌症论文中,26.1万篇(9.87%)被标记为疑似论文工厂产物,其中中国占了17.7万篇,占全球疑似论文的68%。

撰文 | 木木 

1月30日,医学领域顶级期刊《英国医学杂志》(The BMJ)发表了一项令人震惊的研究:在1999年至2024年间发表的癌症研究论文中,每10篇就有1篇疑似论文工厂产物;其中中国的情况尤为严重,每3篇就有1篇疑似问题论文。

这项研究的主导者,正是几周前刚刚在Nature杂志上宣布“论文减产50%”以践行“慢科学”理念的澳大利亚昆士兰科技大学教授Adrian Barnett。如果说之前他用数据证明“90%的研究是垃圾”,那么这次,他用机器学习找到了最底层的“垃圾”,即由论文工厂批量生产的工业化产品。他的团队开发的BERT机器学习模型,通过分析论文标题和摘要的文本特征,在已知真假的论文中达到了91%的准确率。

更令人不安的是,这个问题不仅存在于低质量期刊。研究显示,那些高影响因子期刊(排名前10%的期刊)的标记率从1999年的接近零,一路攀升到2022年的超过10%。这意味着论文工厂的“假货”已经渗透到学术金字塔的顶端,即便是最受尊敬的学术期刊也未能幸免。 

这不是针对中国的“抹黑”,而是基于260万篇论文的科学分析。但我们必须直面一个现实:这个数字会被国际学术界长期记住。它不仅影响中国科研的国际声誉,更可能误导全球癌症研究的方向。同时,它也对那些恪守学术诚信的中国研究者造成了不公平的“污名化”。 

问题究竟有多严重?论文工厂是如何运作的?AI又是如何识破这些造假的?中国科研该如何应对这场危机?

模板化生产留下“文字指纹”:AI如何识破论文工厂

论文工厂(paper mills)通常是指“学术合同作弊组织”,它们为客户批量制造虚假论文。根据BMJ论文引用的数据,过去20年间,超过40万篇疑似论文工厂产物被发表,论文工厂的年收入达到数千万美元。2022年,Wiley出版社在收购Hindawi后,一次性撤回了近1.1万篇疑似论文工厂产物,并关闭了19本期刊,让这个问题获得了前所未有的关注。 

这些论文工厂依赖预制句子的模板,只需替换特定领域的术语,以流水线方式大规模制造论文。根据俄罗斯学者Abalkina的调查,论文工厂的收费直接与期刊的影响因子挂钩,影响因子越高,售价越高。

正是因为论文工厂使用模板化生产,这给AI检测提供了可能。Barnett团队的核心假设是:论文工厂使用的文本模板会延伸到标题和摘要,这些模板特征虽然对人类可能不明显,但AI能够识别。他们选择了BERT机器学习模型来分析文本,让AI读了几千篇真假论文后,学会识别“造假腔调”。 

研究团队从Retraction Watch数据库筛选出2,202篇标记为“Paper Mill”的癌症研究论文用于模型训练,并从学术诚信专家数据集获得3,094篇用于外部验证。作为对照组,他们从北欧国家和高影响因子期刊中选择论文,特别纳入了部分中国的高质量论文,以避免模型仅仅学习语言特征而非造假特征。 

模型表现令人信服:在验证集上准确率达到0.91-0.93,敏感性为0.87,特异性高达0.96-0.99。更重要的是,在交叉验证中,模型成功标记了72%已知包含错误核苷酸序列和细胞系的问题论文,尽管模型在训练时并未获得这些信息。这说明模型确实学会了识别论文工厂的文本特征本身。 

有了这个强大的AI工具,研究团队开始了一项前所未有的大规模扫描:检查1999年至2024年间发表的260万篇癌症研究论文。 

全球9.87%,中国36%:癌症研究中的论文工厂有多猖獗?

这是迄今为止针对论文工厂最大规模的检测研究。研究团队从PubMed数据库的3800万篇生物医学论文中,经过严格筛选,最终得到2,647,471篇癌症原创研究论文,跨越11,632本期刊,时间跨度26年。每一篇论文的标题和摘要都被输入到训练好的BERT模型中进行分析。 

核心数字令人震惊:在2,647,471篇癌症原创论文中,261,245篇被标记为疑似论文工厂产物,占比9.87%。这意味着每发表10篇癌症论文,就有约1篇可能来自论文工厂,是之前估计的3倍以上。


每年被标记为疑似论文工厂产物的癌症研究论文数量 |图源:The BMJ 

从时间趋势看,问题呈指数级恶化。1999-2009年标记率约1%,到2022年已超过15%(171,656篇癌症论文中有26,457篇被标记)。论文指出,标记论文数量遵循指数趋势,R²=0.92,这意味着这是一个系统性的、加速的危机。值得注意的是,2022年后标记率略有下降,论文分析可能与出版商反击、论文工厂转向AI生成新模板等因素有关。 

当研究团队按第一作者所属国家统计时,中国的数字尤其突出。在中国机构发表的497,672篇癌症论文中,177,907篇被标记,标记率高达36%。让我们用数字来理解这意味着什么:这是全球平均水平(9.87%)的3.6倍,是美国(2%)的18倍;中国癌症论文总量占全球18.8%,17.7万篇被标记论文,占全球被标记论文的68%。

值得注意的是,这个问题并不限于中国。伊朗的标记率达到20%,沙特阿拉伯为16%,埃及为15%,巴基斯坦和马来西亚都达到13%。尽管这些国家的标记率也不低,但中国因为科研体量巨大,在绝对数量上最为惊人。与之形成鲜明对比的是,美国的标记率为2%,日本、德国、英国的标记率约为3%-4%。 

从癌症类型看,论文工厂显示出明显的“偏好”。胃癌论文的标记率最高,达到22%;肝癌为20%;骨癌为21%。论文指出,胃癌和肝癌研究中标记论文比例较高,可能部分是因为这些癌症在中国的高患病率。更值得注意的是,某些错误识别的细胞系,如BGC-823和BEL-7402,几乎只出现在来自中国机构的出版物中。这意味着论文工厂针对性地瞄准这些“需求旺盛”的领域。

从研究领域看,基础研究是重灾区。癌症生物学和基础研究、治疗开发、诊断和预后等领域的标记率超过10%,而临床流行病学、支持性护理等领域的标记率低于2%。这符合论文工厂的“经济理性”:基础研究相对容易伪造,临床研究则需要真实患者数据。 

在出版商分布方面,Verduci Editore的标记率高达67%,主要来自European Review for Medical and Pharmacological Sciences期刊。更令人担忧的是,即便是Springer Nature、Elsevier和John Wiley and Sons这些主流大型出版商,标记率也约10%,标记论文数量分别达到4万、近4万和2.8万篇。 

从期刊影响因子看,排名前10%的期刊标记率从1999年的接近零增长到2022年的超过10%。这说明论文工厂问题不仅限于“掠夺性期刊(纯粹以商业盈利为目的而发行的低品质期刊)”,连顶刊们也未能幸免。


影响因子排名前10%期刊中被标记为疑似论文工厂产物的癌症论文比例(按发表年份)|图源:The BMJ

研究人员指出:“影响因子的同步增长和标记论文的蔓延表明,这两种现象可能都源于‘发表或消亡’文化的压力。”论文工厂按影响因子定价,瞄准高端市场,而研究者追求高影响因子的压力为其提供了市场。这也印证了Adrian Barnett“影响因子与论文质量并没有直接关系”的观点。 

整体而言,这些数字勾勒出一幅令人不安的图景:全球9.87%的癌症论文被标记,中国高达36%;问题论文标记率从1999年的1%飙升到2022年的15%以上,呈现指数级恶化;从掠夺性期刊到顶级期刊,从基础研究到临床应用,论文工厂的触角无处不在。这不是冰冷的数字,而是一场正在发生的学术诚信危机的真实写照。 

“标记”不等于“造假”:统计工具不是终审法官

当我们看到36%这个惊人数字时,很容易得出简单的结论:中国有36%的癌症研究论文是假的。但科学研究需要严谨,BMJ这篇论文展现了可贵的学术诚实,它用大量篇幅讨论了研究的局限性。 

首先,研究确实证实了三个关键事实:论文工厂使用文本模板(模型在不同验证集上准确率达0.91-0.93);癌症研究的污染比想象严重(10%的标记率是之前估计的3倍以上);高影响因子期刊不能保证质量(顶级期刊标记率从0增长到10%以上)。 

其次,研究团队指出研究本身存在局限性。最关键的是:“标记”不等于“造假”。根据模型的灵敏度(0.87)和特异度(0.96-0.99),论文作者计算了一个假设场景:如果癌症研究中真实的论文工厂论文比例是10%,那么也就意味着在被标记的论文中,约70%确实是论文工厂产物(阳性预测值),而约30%是误判。但真实的论文工厂比例究竟是多少,目前仍然未知。

研究强调,即使存在误判,被标记的大量论文仍然值得警惕和深入调查。以中国的17.7万篇被标记论文为例,如果假阳性率为30%,可能有5.3万篇是被误判的真实研究。但即便如此,仍有12.4万篇可能是真实的论文工厂产物。 

论文特别强调,分类器是概率模型,不是不端行为的确定仲裁者。所有标记论文代表基于文本特征的统计预测,应解释为需要人类判断和进一步验证的信号,而不是确认的欺诈案例。 

关于可能的地理偏见,论文承认训练数据中中国论文过多可能引入偏见,但紧接着提供了反证:模型误分类分析显示假阳性很少,而中国论文在假阴性中过度代表(占90%),这恰恰说明不存在系统性过度标记。此外,论文特别指出:论文工厂的原产国可能与作者的国家不同,比如一家俄罗斯论文工厂向至少39个国家销售出版物,也就是说,即使第一作者单位在中国,不等于造假者就来自中国。 

根源在“发表或消亡”文化 

BMJ论文给出了明确的诊断:高影响因子期刊中标记论文百分比的上升表明,论文工厂论文不仅是低影响期刊的问题。影响因子的同步增长和标记论文的蔓延表明,这两种现象可能都源于publish-or-perish(发表或消亡)文化。 

论文指出癌症研究受影响更严重,原因包括“高发表压力、专业化领域中简单易伪造的数据和技术,以及有限的同行评审能力”,其中“高发表压力”排在首位。论文工厂按期刊影响因子定价,这创造了一个恶性循环:研究者需要高影响因子论文来满足晋升要求,论文工厂瞄准高影响因子期刊以卖出更高价格,结果导致高影响因子期刊的标记率从接近零上升到10%以上。

虽然论文没有直接分析中国的科研评价体系,但提供了几个客观事实:中国是被标记论文最多的国家,某些出版商被中国政府标记为“与学术严谨性冲突”,BGC-823和BEL-7402等细胞系几乎只出现在中国机构出版物中。这些暗示中国的发表压力可能特别严重,为论文工厂提供了最大市场。

论文警告了论文工厂问题的多重危害:浪费编辑和审稿人时间,误导临床决策和后续研究,以及系统性风险——Wiley收购Hindawi后一次性撤回近1.1万篇论文、关闭19本期刊就是活生生的证据。论文还警告,ChatGPT等AI工具的兴起可能让论文工厂生成更逼真的文本,使未来检测更具挑战性。 

在应对措施方面,论文报告模型已整合到三家期刊的投稿系统中,强调“最终决定始终由人类做出”“投稿永远不会仅基于工具就被拒绝”。论文呼吁出版商和政策制定者协调行动,持续改进检测技术,整合多种工具(文本分析、图像检测、数据验证)来遏制论文工厂蔓延。 

中国科研的警钟与转机

对中国而言,36%的标记率和17.7万篇被标记论文的数据将被国际学术界长期记住。当然,具体的造假情况有待进一步审查。考虑到约30%的假阳性率,真实的造假比例可能在25%左右。但即便是25%,也意味着每4篇中国癌症研究论文中就有1篇可能存在严重诚信问题。

这是无法回避的现实。 

在悲观的数据中,我们必须看到希望的一面。36%被标记,意味着64%的中国癌症研究论文没有被标记。绝大多数中国科研人员是诚实的,他们在努力做真实的研究。诚实研究者们承受着“发表或消亡”的巨大压力,看着造假者快速晋升,却依然坚持学术诚信。他们才是中国科研的希望所在。 

正因如此,中国科研当下面临着关键的路径选择。如果继续现有路径,论文数量将继续膨胀而质量继续下降,论文工厂继续繁荣,国际声誉继续受损,诚实研究者继续吃亏,“劣币驱逐良币”的局面继续恶化,最终可能面临某种程度的“学术孤立”。如果选择改革之路,就要彻底改革评价体系(从数量到质量),重建学术诚信文化(从“发表或消亡”到“慢科学”),从论文大国走向科研强国。

而且必须看到,做出改变的时间窗口正在关闭。BMJ论文警告:不作为的风险是允许论文工厂进一步蔓延,可能危及整个期刊和出版商。Barnett在Nature上的警告同样适用于中国科研:如果我们不放慢速度,出版系统的更多部分将会崩溃,科学进步将被阻碍。

Barnett的研究也提出了一些解决方案:问题是系统性的,不是个别研究者的道德问题,而是激励结构导致的集体困境,所以解决方案必须是制度改革。完整的改革路径需要三管齐下:技术检测(开发AI工具)、制度改革(推动评价体系改革)、文化重建(倡导“慢科学”理念)。 

36%是震耳的警钟,但警钟也是转机。问题已经被量化、被识别、被公开,技术工具已经存在,解决路径已经清晰,国际经验可以借鉴。现在需要的,是决心和行动。

:本文所有数据和引用均来自2026年1月30日发表在The BMJ上的研究论文"Machine learning based screening of potential paper mill publications in cancer research: methodological and cross sectional study"(BMJ 2026; 392:e087581),以及Adrian Barnett在Nature杂志、eLife杂志和Median Watch博客上发表的系列文章。 

关于Adrian Barnett早前关于“90%研究是垃圾”和“论文减产50%”的研究,详见我们之前的报道文章《“90%的科研都是垃圾!”这位学者拿自己开刀,要把论文数量砍一半》。 

参考文献

[1] Barnett, A.G., Smail, B., Cherbuin, D., & Byrne, J.A. (2026). Machine learning based screening of potential paper mill publications in cancer research: methodological and cross sectional study. The BMJ, 392, e087581. https://doi.org/10.1136/bmj-2025-087581

[2] Barnett, A. (2026, January 19). I'm going to halve my publication output. You should consider slow science, too. Nature. https://doi.org/10.1038/d41586-025-04061-w

[3] Barnett, A. (2025, January 7). 90% of scientific research is crap. Median Watch. https://medianwatch.netlify.app/post/sturgeon/

[4] Chalmers, I., & Glasziou, P. (2009). Avoidable waste in the production and reporting of research evidence. The Lancet, 374(9683), 86-89. https://doi.org/10.1016/S0140-6736(09)60329-9

话题:



0

推荐

返朴

返朴

2967篇文章 18分钟前更新

科学新媒体“返朴”,科普中国子品牌,倡导“溯源守拙,问学求新”。

文章