PNAS：数以亿计的论文，正在成为科学创新的阻力-返朴的财新博客-财新网

科学领域蓬勃发展的标志是数以亿计的论文，而这正在阻碍创新思想的出现。来自美国西北大学凯洛格商学院的Johan S. G. Chu和芝加哥大学社会学系的James A. Evans合作，研究了241个学科9000万篇论文的18亿次引用数据，发现大规模的论文发表不会导致某个领域的中心思想更替，而是会导致经典思想范式的僵化。该研究指出当前科研创新需要颠覆式的学术创新和对新思想的关注。

撰文 | 郭瑞东

审校 | 月然、刘培源

论文题目：

Slowed canonical progress in large fields of science

论文地址：

1. 科研界的马太效应

大多数研究领域，每年发表的论文数量随着时间的推移显著增加。科学界的诸多激励措施，例如增加科学家的数量及研究经费，其最终产出，都是以论文的数量来衡量的。发表的论文数量，决定了学者的职业轨迹，以及对学术机构及国家层面科研能力的评价。

然而，科学家和论文数量的增加是否能够转化为认知边界的扩大？如果能够，其过程又是怎样的？之前的观点，认为科研进程可用沙堆模型描述，即使不是每一篇论文都能改写教科书，但新的论文，可以看成在沙堆中添加一粒沙子，增加了发生雪崩的可能性。雪崩发生后，新的科学范式出现，就如同人类的认知从牛顿力学升级到相对论。

在这一假设下，在规定时间内发表更多的论文，便成为获得终身职位和晋升的最可靠途径。引用数成为了用来衡量一个领域内个人、团队和期刊的重要性的最核心指标，数量越多越好，被引用的也越多越好。

然而，上述标准，依据的假设被证明是错误的。先看一个有代表性的例子，当电气与电子工程领域每年发表约10,000篇论文，被引用次数最多的0.1% 论文，总引用数占1.5% ，被引用次数最多的1% 论文占8.6% 。而当这个领域增长到每年发表50,000篇论文时，前0.1% 的论文获得了3.5% 的引用，前1% 的论文获得了11.9% 的引用。等到该领域扩大到每年发表10万篇论文时，前0.1% 的论文获得了该领域5.7% 的引用，前1% 的论文获得了16.7% 的引用。相比之下，排名最后的50% 被引用次数最少的论文的比例则随着领域的扩大而下降，从每年10,000篇论文的43.7%，下降到每年100,000篇论文时的略高于20% 。

图1：不同领域的发表论文的多少（横轴）和论文引用数的衰减系数（纵轴），不同颜色代表了不同类型的引用数，纵轴的值越高，说明这项研究每年获得的引用逐年下降的趋势越弱，例如在被引用次数最多的前1% 以外的论文，平均每年减少约17% 的引用次数，而那些排前5%以下的论文，其引用次数有逐年减少四分之一的趋势。

这说明新论文的泛滥，可能会剥夺读者理解新观点所需的认知空缺（cognitive slack）。就如同必需先清空大脑，才能够学到新知；研究者必须有空闲，才会去关注非主流的研究。当每年发表的论文数量非常大时，新论文的快速涌现可能会迫使学术界关注那些已经被广泛引用的论文，从而限制对那些知名度较低的论文的关注——即使这些知名度低的论文，事后被证明是具有新颖性且有变革性想法。

回到前文提到的沙堆模型。当沙子以过快的速度下落时，邻近的小型雪崩会相互干扰，反而造成没有一粒沙子可以触发整个沙堆的移动。即每一粒新的沙子落下的速度越快，所能影响的区域就越小。对应科研界，如果论文的发表速度太快，没有新的论文可以通过扩散和优先连接的局部过程，积累影响力，从而改变科研界的全局范式。

当一个领域每年发表的论文数量增加时，引用量不成比例地流向已经被引用很多的论文，这就如同马太效应，富者越富而贫者越贫。大量新发表的论文没有加快领域范式的更替，而是巩固了被引用次数最多的论文的学术地位。这意味着科学进展可能会放慢，受困于现有的研究范式。随着大多数领域，每年发表论文呈现持续增长，科研保守化将会是大势所趋，本文在论述了对数据的分析后，会讨论如何采取政策措施，重组科学生产价值链，以使大众的注意力集中在有希望的、新颖的想法上。

2. 论文过多让科学界越发保守

基尼系数是经济学中用来评价收入平等的，越高说明收入不平等越严重。该文用其来评价论文每年获得的新引用数目上的不平等。图2A说明了，科学界中引用数越高的论文，其获得的引用的过程，也越发不均等，当一个领域有更多的论文发表时，特定论文，尤其是那些高引用论文拿到了相对更多的新增引用；而B指出，当某领域发表更多的论文后，该领域论文引用数的排名变的更加稳定（从而相关性更高），每一篇新论文的发表都不成比例地增加了已经被引用最多的论文的引用。

图2：图中的每个点代表一篇论文，左图指对数处理的某领域该年的总论文数（横轴），与每年特定论文获得引用数所占比例的基尼系数（纵轴）之间的散点图；右图展示了特定论文年与年之间，新获得的引用数量，与当年该领域总引用数之间的斯皮尔曼相关系数（纵轴），不同颜色的线代表了论文数量最多的十个学科的拟合曲线。

如果按照之前的认知，论文被引用，是一个通过逐渐累积影响力，使得学术圈内的人集中注意力的过程，其每年新增引用数也相对平等。研究如在某一年内被大量引用，是由于人们认识到了其创新价值，之后更新的研究替代了这项研究，使得其引用增长在年与年之间会出现不均等，和所在领域该年总共发表了多少论文无关。一篇论文即使再有颠覆性，在现代科学枝繁叶茂的情况下，也不太可能引起该领域这一年发表的论文数目显著增加，即使有也只是特例而非趋势。

但事实推翻了传统观念对论文被引用这一现象的描述，更合理的描述是：那些不引用已有经典高引用论文者，很难获得新的引用，成为经典。当许多论文在短时间内发表时，学者们被迫采用启发式方法来理解这个领域。认知负荷过重的读者，只处理与现有范式吻合的新研究，而不是根据特定研究的自身优点去评价其价值。一个新颖的想法，如果不符合现存的模式，将不太可能被出版，阅读或引用。

进一步支持上述解释的事实是，某领域发表的论文越多，新论文越难以成为该领域被引用次数最多、广为人知的经典。新发表的论文，成为引用最高的千分之一那部分的概率，所需的时间，都随着领域发表论文总量降低。如图3所示：

图3：领域发表论文数（横轴）和发表论文成为引用数最高的千分之一的概率（a纵轴）及所需年份（b纵轴）的散点图

当一个领域很小的时候，论文随着时间的推移缓慢地上升到前0.1% 的最常被引用，这对应的是科研共同体，缓慢聚集注意力的过程。相比之下，那些在论文发表量很高的领域，属于主流研究范式的论文，很快就登上顶峰，这与学者们通过阅读他人研究中引用的参考文献，而发现新作品的累积过程不一致。

图4：图a红色/蓝色分别对应继承性/颠覆性所占比例（纵轴）和该领域该年发表论文总数（横轴）的散点图。图b是每年发表的论文，其颠覆性指数能达到平均来看最大的5%的概率（纵轴）和该领域该年发表论文总数（横轴）的散点图。

根据吴令飞、王大顺、James Evans等人2019年的论文[1]，可以针对每篇论文，计算其颠覆性指数。图4指出，当每年1,000篇论文发表时，颠覆性论文（D>0）所占比例为49%。当发表10,000篇论文时，颠覆性论文的预测比例下降到27% ，100,000篇论文则下降到13%。当每年发表10000篇论文时，论文是最具颠覆性的5%的比例从1000篇时的8.8% 降至3.6% ，而每年发表10万篇论文时没，该比例则只有0.6% 。

3. 总结和展望可能的改进方法

最近的证据表明[2]，现在需要更多的研究努力和资金才能产生类似的科学收益ーー生产率正在急剧下降。我们是否因为陷入过度内卷的研究领域，而错过了有潜力的新科研范式？对于这些问题，该研究的发现可以给出部分回答，具体可总结为以下六点：

与一个领域每年只发表很少的论文相比，当这个领域每年发表很多新论文时：

1) 新的引用更有可能引用被引用次数最多的论文，而不是引用次数较少的论文;2) 被引用次数最多的论文的名单每年都会发生很小的变化ーー经典僵化;3) 一篇新论文最终成为经典的可能性会下降;4) 确实进入被引用次数最多的论文的新论文不会通过逐渐累积的传播过程进入这个行列;5) 发展现有科学思想的新论文的比例会增加，破坏现有思想的比例会减少;

6) 一篇新论文成为高度破坏性论文的可能性会下降。

这些发现，对于当前科学的发展方向，是令人不安的。如果在短时间内发表了太多的论文，新的想法就不能与旧的想法进行仔细的比较，累积优势的过程就不能选择有价值的创新。具有讽刺意味的是，当今科学事业的“越多越好”、“量化评估”的本质，可能会阻碍已成熟领域的革命性变革。期刊数量的激增，论文预印和在线开放阅读的流行，导致期刊层次结构的模糊可能会加剧这一问题。

需要注意的是，由于知名学者通过以领域为中心的阅读清单、教学大纲和课程顺序，将他们对世界的认知观传递给学生，领域界限通过晋升和奖励的职业塑造模式，会自然而然的得到强化。这意味着该研究的结论，不应该被过渡推广。例如即使某领域被引用次数最多的文章保持不变，进步可能依然存在。就像尽管《分子生物学》中被引用次数最多的文章发表于1976年，并且自1982年以来，每年都是被引用次数最多的文章，但人们很难说这个领域已经停滞不前了。

减少论文数量，出版物的数量，关闭期刊，关闭研究机构，减少科学家的数量，这些都是不可行的措施。在不改变其他激励措施的情况下限制文章数量，可能会阻碍新颖、重要的新观点的出版，从而有利于低风险、属于现有研究范式的论文。

而在学术如何进行、传播、消费和奖励方面的一些改变，可能会有所帮助。一个更清晰的期刊等级结构，以及最有声望、最受欢迎的出版社，将版面专注于那些不那么主流的研究，可以培养颠覆性的学术研究，并将注意力集中在新颖的想法上。改变奖励和晋升制度，避免采用基于数量的衡量标准，重视更少、更深入、更新颖的贡献，可以减少争夺某个领域注意力的论文数量，同时鼓励不那么符合现有研究范式、更具创新性的工作。

一个被广泛采用的衡量新颖性的标准，相对于传统的h-index，可以被用来衡量研究者的学术水平。新指标会促使未来的研究人员更好地理解那些不那么扎根于既定准则的令人不安的新奇想法。例如圣塔菲研究院的Stefani提出的Epsilon 指数，其中的希腊字母 ε 象征统计学中的残差[3]。

这个新的指标考虑了研究领域中的许多差异，以提供一个更公平的比较。作为一个现成的应用程序，可以免费使用ーー只需为来自谷歌学术等开源数据库的研究人员样本输入一些数据，就可以得出结果。这样就可以对处在职业生涯的任何阶段的研究人员，在同等规模的各个学科（包括跨学科研究）进行更加公平比较，以激励更多的颠覆性创新。

参考文献

[1] Wu, Lingfei, Dashun Wang, and James A. Evans. "Large teams develop and small teams disrupt science and technology." Nature 566.7744 (2019): 378-382.

[2] Bloom, Nicholas, Charles I. Jones, John Van Reenen, and Michael Webb. 2020. "Are Ideas Getting Harder to Find?" American Economic Review, 110 (4): 1104-44.

[3] Bradshaw C J A, Chalker J M, Crabtree S A, et al. A fairer way to compare researchers at any career stage and in any discipline using open-access citation data[J]. Plos one, 2021, 16(9): e0257141.

本文经授权转载自微信公众号“集智俱乐部”。

话题：