财新传媒 财新传媒

阅读:0
听报道

编者按:同行评议作为目前学术界通行的主流做法,要求对任何发表在严肃期刊上的论文都进行前置评审,旨在将那些存在明显问题的论文排除在外。这种做法并非“古已有之”,而是起源于上世纪60年代。一位美国心理学家、哥伦比亚商学院的博士后研究学者 Adam Mastroianni 认为,随着这项制度在实践中暴露出越来越多的问题,甚至它的存在究竟是促进还是阻碍科学进步都很难说的时候,学术界必须认真考虑修改甚至废除这种做法了。

撰文 | Adam Mastroianni

六十多年来,科学界一直在进行一项巨大的“实验”。实验设计的不是很好:没有随机分组,也没有对照组。确切地说,也没有人在总体上负责,更没有人进行一致的测量。然而,这是有史以来最大规模的实验,它包括了地球上的每一位科学家。

大多数人甚至没有意识到他们在参与实验。他们中的许多人,包括我自己,在实验开始时还没有出生。如果我们注意到了正在发生的事情,也许我们会要求基本的科学严谨性。即便知道了这是实验,也许依然没有人会反对,因为这个假设看起来如此明显地正确:如果有人检查每一篇论文并拒绝那些不符合要求的论文,科学会变得更好。这件事叫做“同行评议”。

现代人对此习以为常并不代表“向来如此”。从古代到近代,科学家们通过写信和出版专著来介绍自己的工作,阻碍交流的主要问题是纸张、邮资或印刷的费用。学术期刊出现在17世纪,那时它们的运作更像杂志或时事通讯,它们挑选文章的过程从一开始的“得到什么就印什么”到“编辑问他的朋友怎么想”再到“全社会投票”,有时期刊无法获得足够的论文来发表,所以编辑们不得不四处找朋友们来帮忙投稿,或者自己写东西来填满页面。顺便说一句,爱因斯坦的论文中只有一篇经过了同行评议,他感到非常惊讶和不安,于是他在另一份期刊上发表了自己的论文。

二战后一切都变了。政府向研究投入大量资金,并召集“同行评审员”来确保他们不会把钱浪费在看似愚蠢的提议上。这笔资金变成了大量论文,期刊编辑们从发愁如何填满页面变成了如何选择论文。在发表前审查论文,这在20世纪60年代以前是“非常罕见的”,后来变得越来越普遍。

图源:Getty/iStock montage

现在,几乎每份期刊都聘请外部专家来审核论文,让审稿人不满意的论文会被拒绝。你仍然可以写信给你的朋友,告诉他们你的发现,但是大学的招聘委员会和资助机构好像认为唯一真实存在的科学就是发表在同行评议期刊上的东西。这就是我们已经进行了60年的大型实验。

而我认为这项实验的结果是:失败。原因如下:

投入巨大,收效甚微 

同行评议是一项巨大而昂贵的干预措施。据估计,科学家每年用于评审论文的工作时长加起来有一万五千年。一篇论文通过审查系统可能需要几个月甚至几年的时间。大学为获得同行评议的期刊支付了数百万至上千万美元,而这些钱几乎没有一分落入作者或审稿人的手中。

巨大的投入似乎应该产生巨大的成效,但事实并非如此。科研生产率几十年来一直是持平甚至下降,不断增加的科研经费带来的回报越来越低,同行评议也没有能够改变这一趋势。(参考:Nature:颠覆性大滑坡,科研还能有实质创新吗?)太多经过同行评议而发表的论文,其结果无法复现,甚至其中大部分可能是完全错误的。如果学家们评价20世纪上半叶物理学、医学和化学领域获得诺贝尔奖的发现时,他们会说同行评议前的发现与同行评议后的发现一样好,甚至更好。 

同行评议真的能阻止问题论文的发表吗?

答案是否定的。多项研究证实,在提交的手稿中故意添加的明显错误,只有25-30%被发现了。而当问题论文被发现甚至撤稿后,类似“论文声称是随机对照试验,但事实并非如此”,“根据图表中的数据,很明显没有效果”以及“作者得出的结论完全没有数据支持”的结论才刚刚出现,它们本该在评审阶段就应该有了。

欺诈性的论文一直在发表,如果评议有效,我们应该听到的故事是“张三教授因试图提交一份伪造的论文而被解雇了”,但事实是,几乎所有有关论文不端的报道都是从论文被撤稿开始的——问题论文已经被发表了。为什么审稿人没有发现很明显的错误和明目张胆的造假?一个原因是,他们几乎从来不看手稿背后的数据,而这些数据恰恰是最有可能出现错误和欺诈的地方。

等等,这些不是真正的误差线…作者只是把字母“T”放在条形图的上方丨来源:twitter@SeriFeliciano

事实上,大多数期刊根本不要求你公开你的数据。作者应该“应要求”提供给他们,但大多数人没有。这就是为什么会出现非常搞笑的场面,比如大约20%的遗传学论文含有完全无用的数据,因为Excel会自动将基因的名称修正为月份和年份。很多编辑说当他们开始要求作者提交的手稿后添加原始数据时,一半的作者拒绝并收回了他们的投稿,用编辑的话说,这表明“原始数据有可能从一开始就不存在。” 

科学家们真的信任同行评议吗?

科学家经常说他们非常重视同行评议,但是在下列场景中,他们根本不在乎这个。

第一:如果科学家非常看重同行评议,当他们的论文被评议后拒绝时,他们会听取反馈,做更多的实验,重写论文等等。但现实是,他们通常只是换一家期刊再投一次稿而已。我的导师就曾告诉我,发表论文就像买彩票,想要中奖,唯一的办法就是多买几次。这种“核查”系统比随机瞎蒙好不了多少。

第二:一旦论文发表,评审意见就没用了。少数期刊会发表评审意见,没有人关心审稿人说了什么,或者作者如何回应这些意见,这表明没有人认为这些评论从一开始就很重要。

第三:科学家对那些未经审核的工作也很看重。我们阅读预印本、工作总结和博客帖子,所有这些都未经评审。我们使用来自皮尤、盖洛普和政府的数据,同样未经审查。我们参加学术会议,人们会谈论那些尚未发表的工作,但不会有人对别人说:这个想法太好,我迫不及待地想让它接受同行评审,这样我就能知道它是不是真的!

 相反,科学家们心照不宣地同意同行评议没有给出新的东西,就像诺贝尔奖获得者Sydney Brenner 所说的:我不相信同行评议,因为我认为这是非常扭曲的,这只是回归到平均水平。我认为同行评议正在阻碍科学。事实上,我认为它已经成为一个完全腐败的系统。

这套系统能够改善吗?不能!

我常常思考那些改进同行评审的方法:审稿人要看数据;审稿工作需要培训;审稿人应该获得报酬。这些办法都有人在尝试了,也没有什么效果。

可能真正的问题不在于评审流程怎么改,而是评审的标准。更严格的同行评审将意味着更无聊的论文,这意味着想要去读的人会更少。例如,过去人们可以按照个人化的风格来写论文,而现在,论文必须按照法律合同的规范来写。以前的论文标题可能是“救命啊!一个神秘的数字正在迫害我!”(Smergdorf & Blugensnout, 1978),而现在只能是“人类已经说过,在不同的时间和地点,存在,甚至有几个质量,或维度,或关于他们的事情是真实的,但当然这需要进一步研究”(Stikkiwikket, 2002; von Fraud et al., 2018b)。

没人喜欢去读这些往往长达一两百页的、包括补充信息的论文。所有这些内容都像是在劝你放弃而不是鼓励你读下去。最近有个朋友问我,上一次从头到尾看完一篇论文是什么时候?我说不记得了,他说他也不记得了。

如果你真的找到了一种既能改善同行评议又不会让它变得更糟的方法,你可以尝试说服现有的近30000种学术期刊,将你的神奇方法应用到它们每年发表的约470万篇论文中。祝你好运!

同行评议确实有局限性,但是有总比没有强对吧?不对!

设想一下,当你去购买牛肉的时候,发现上面有“INSPECTED BY THE FDA”,你会觉得很放心然后买回家是吧?但是当你得知所谓FDA认证的检查方法是派出检查员在牛肉上闻闻气味,然后就盖了章,你会作何感想?检查员肯定能闻出几批牛肉的气味不对,但是显然他会忽略更多潜在的危险。不靠谱的认证会带给人们虚幻的质量保证,让人们放心地吃下了很多垃圾。

这就是我们目前的同行评议的现状。著名的关于疫苗会导致自闭症的论文是一篇经过同行评审的论文,发表在《柳叶刀》上,在被撤回之前,它在那里停留了12年。有多少孩子因为一篇问题论文通过了同行评审并盖上了科学批准的印章而没有注射疫苗?

如果你想在美国出售一瓶维生素C片,必须附上一份免责声明,声明瓶子上的任何声明都没有经过食品药品监督管理局的评估。也许期刊应该在每篇论文上印上类似的声明:“没有人真正检查过这篇论文是真是假。据我们所知,这可能是编造的。”这至少会让人们保持适度的警惕。

同行评议基于一种错误的假设——科学进步遵循木桶理论

科学进步遵循木桶理论吗?让科学能够进步的原因在于我们排除了更多错误或者不良的研究吗?把那些东西排除掉之后,人们会发现没有解决的科学问题依然存在,我们仍然一无所知。

实际上真正的进步来自于那些最好的工作,而这些工作刚刚出现的时候可能看起来匪夷所思,但是科学的优势就在于,它可以实践,可以检验,正确的理论总是会得到验证的。我们不能用燃素来获得能源,不能用亚里士多德的物理学登上月球,也不可能在太空中找到以太。但是这不重要,时间会让这些理论自动被归置到历史的角落里,当然并不影响我们对这些古代的探索者表示敬意。

同行评议的整体趋势是在排除那些有问题的研究工作,而并不介意可能扼杀一些真正的好想法。审查所做的只是让旧思想更难被击败。如果科学杂志在哥白尼的时代存在,地心说的评论家们会拒绝他的论文,并为阻止了异端邪说而沾沾自喜。优生学曾经是科学界的热门话题——你认为一群种族主义者会对一篇证明黑人和白人一样聪明的论文开绿灯吗?我们仍然不了解关于宇宙的基本真理,我们今天相信的许多想法总有一天会被颠覆。自由的讨论会让这一天更快的到来,审查则会将其延缓。

同行评议失败了,是时候结束这场实验了

这场长达六十多年的实验并没有总负责人,这意味着没有人会宣布它的结束。但是我不介意来做这件事:事情结束了!我们进行了尝试,但是没有成功。

这场实验代价巨大,但是失败的实验并不可耻,这不就是科学本来的面目吗?讽刺的是,同行评议本身并没有经过同行评议,也许当初应该在局部进行实验而不是直接普及。这并不代表科学界的交流结束了,相反,我们只是证实了这种办法行不通。

那么到底应该怎么做呢?我自己做了尝试。上个月我发表了一篇论文——我上传了一个PDF到互联网上。我用普通语言书写,所以每个人都能理解。我毫不隐瞒——我甚至承认我忘记了为什么要进行其中一项研究。我在里面放了笑话,因为没人能告诉我不要。我把所有的材料、数据和代码上传到每个人都能看到的地方。我想我会看起来像个傻瓜,没有人会注意到我,但至少我很开心,做着我认为正确的事情。

然后,在我告诉任何人这篇论文之前,成千上万的人发现了它,评论了它,转发了它。

完全陌生的人发邮件给我,附上了深思熟虑的评论。终身教授给我发了一些想法,NPR要求采访。这篇论文现在比我发表的上一篇同行评审论文有更多的回应,那篇论文发表在PNAS上。我有一种预感,会有更多的人从头到尾阅读这篇新论文,因为最后几段尤其得到了很多评论。所以这似乎是一个好方法?

我不知道科学的未来是什么样子。也许我们会在元宇宙制作互动论文,或者我们会将数据集下载到我们的大脑中,或者在科技狂欢的舞池中互相耳语我们的发现。不管是什么,这都将比我们过去60年来所做的要好得多。为了达到这个目标,我们要做的就是我们最擅长的:实验。

编者按:Adam Mastroianni 这篇博文一出,引起的不小的争议,大部分意见认为目前这项制度没法改,原因则众说纷纭。也有不少人支持 Adam ,认为很难改不代表不应该去努力探索。主要的疑问是:不用同行评议,什么样的学术交流系统更好呢?

肯特大学的定量社会学讲师 Robert de Vries 很赞同Adam 的看法,他认为如果要替代同行评审,那么必须解决的问题是可发现性:引用 Adam 的数字,仅仅是通过同行评审出版的论文,每年已经有四五百万篇的规模,如果没有这道门槛,其数量再翻个几倍也毫不稀奇。那么作者如何能让自己的作品引起注意呢?读者又如何在这片论文海洋中找到自己可能想看的那几篇呢?

如果学术界的交流陷入目前互联网的流量逻辑当中,论文被看到的概率取决于作者的推广能力而不是其真正的科学能力,研究发布平台的算法比自己的实验数据还深入,那当然会是一个更大的问题。预印本和开放获取的实践表明,将评审环节后置固然能够解决部分透明性的问题,但是依然受困于过滤和优质内容聚合的问题:读者想看优质内容,不想在垃圾文章上浪费时间。

也有一种观点认为,论文泛滥的问题源于学术评价机制,这种机制被滥用的太多太广,科学界早就不是几百年前一些真正有好奇心、有闲暇也有能力的智者的游戏,而是牵涉甚广的一项产业和无数人的饭碗。如果通过某种方式让发论文变成“只博虚名而无实利”甚至只是将潜在利益降低一截,论文的数量马上就会暴跌,那么上述问题可能解决起来就会容易的多。

 

参考文献

1.https://experimentalhistory.substack.com/p/the-rise-and-fall-of-peer-review

2.https://www.timeshighereducation.com/blog/yes-peer-review-sucks-attention-economy-hellscapes-would-be-worse

本文经授权转载自微信公众号“知社学术圈”。

 

话题:



0

推荐

返朴

返朴

2662篇文章 1天前更新

溯源守拙·问学求新。返朴,致力好科普。

文章