近日,《美国国家科学院院刊》(PNAS)刊发一项研究表明,使用更多“促销型”语言的申请材料,更容易获得资助。这项研究所反映的是经费申请的自我炒作,还是真正体现了研究的创新性?
撰文 | 郭瑞东
在科研人员的职业生涯中,有很大比例的时间都用在了撰写及修改基金申请材料上(俗称“本子”),基金申请书决定了哪些科研人员能获得资助,间接影响他们的职业晋升。近日,《美国国家科学院院刊》(PNAS)发表一项研究[1],考察科研基金申请材料中“促销(promption)”型语言的使用和申请获得资助的关系:使用更多“促销”型语言的申请材料,更容易获得资助。这一结果并不意外。但科学研究的价值,只应与研究本身有关,不应取决于描述它时使用的语言。这样的发现,让人们不得不反思语言使用与学术研究的创新性之间的关系,尤其是在当下,这个可以使用AI辅助写作、有针对性地使用“促销”型语言的环境中。
1
何为“促销”型语言?”
在介绍2024年这篇PNAS研究之前,需要先了解何为“促销”型语言。对该问题的讨论,最初起源于2022年发表的一项研究[2]。研究人员考察了1992-2020年美国国立卫生研究院(NIH)收到的16,495份基金申请书,统计每篇申请书中的词频,并计算词频与是否获得申请具有相关性;根据词频和对应词频获得申请的概率,计算相关系数,由此定义了138个“促销”型的形容词,其中相关系数最高的词包括:impactful(影响力大的)、timely(及时的)、significant(显著的)、transformative(变革性的)等。研究者的主要发现是:在1992-2020年,这些促销词汇在NIH申请材料中的使用频率显著上升,平均增加达41%(见图1)。
图1:1992至2020年NIH申请书中,9个相关系数最大的促销型词汇的词频变化曲线。图片来源:参考文献[2]
2
更多促销型词汇的申请更加容易获得资助
2024年的这篇PNAS研究主要目的是通过语义分析,考察创新理念究竟是如何在科学文本中表达的。研究人员沿用了前述定义的“促销”型形容词例表,基于2015-2022年2649份美国NIH、561份美国国家科学基金会(NSF)和13520份诺和诺德基金会(Novo Nordisk Foundation)的研究申请书(前两者是公立,后者为私立),用包含更多学科的数据集复现了2022年的研究,即促销型词汇的使用与申请获得资助正相关(图2);且经过回归分析,人们可使用促销型词汇的频率,来预测资金申请成功与否(图3)。
图2:基金获得申请与否的申请书中,促销型词汇的频率的概率密度。图片来源:参考文献[1]
图3:包含促销型词汇的比例和预测的获得资助的概率。图片来源:参考文献[1]
使用促销型语言,是否意味着申请者不过是“王婆卖瓜,自卖自夸”,还是申请者确实是客观地描述研究计划?对此,研究人员通过考察每篇申请书中的参考文献,评估了每份申请书的创新程度。这是一种统计学方法,已被用于评估科研文献的创新性[3]。具体来说,是用参考文献判断对过去知识的“组合程度”,即用熟知的方式或新颖的方式表达已有知识。如果某项研究申请引用的文献之前没有在同类工作中出现过,那么它会被评估为更具创新性。但是,考虑到申请书是针对还没有完成的研究的展望,也不像研究论文经过了同行评议,能否使用文献组合的意外性来评估申请书的创新性存在争议。
根据此方法,研究发现申请书使用促销词汇越多,其创新程度也越高(图4)。
图4:申请书预测的创新程度与使用促销词汇的频率。图片来源:参考文献[1]
此外,研究者还可以根据一份申请书中使用促销词汇的多少,预测该申请书获得批准后产生的论文影响力(质量)。与包含1%促销词的申请书相比,包含2%促销词的申请书预估的发表期刊最高影响因子预增加了30%(从12增加到16),且预估发表的研究数量也会增加一篇。基于2019年之前给予资助的项目的实际产出分析,上述预测结果的对应趋势可以被真实数据验证。这进一步说明了使用促销型语言的申请书是产出更多实际结果。
图5:申请书预测的产出文献的平均(左),最大(中)期刊影响因子及对应产出论文数(右)与使用促销词汇的频率。图片来源:参考文献[1]
3
如果将促销词汇替换,会降低审核者的正面评价
申请书中促销型词汇的使用频率增加与获得资助存在相关性,不能等同于两者之间有因果关系。显然,研究者无法进行对照实验验证因果关系是否存在,但可以通过干预实验论证因果性。
为了说明的确是申请书中使用了促销型词汇促成了科研资助,研究者将申请书中促销型词汇一一对应地换成了中性词汇。例如原本出现在申请书中的句子是,“此外,该计划的一个独特而关键的方面是共享常见的小鼠品系......”替换成,“此外,该计划的一个具体且核心方面是共享常见的小鼠品系.....”(原句中的unique和key分别替换成specific和central)。接着让三位有过基金评审经验的研究者对替换前后的申请书根据正面、中性和负面的情绪打分,对比替换前后申请书的平均打分,研究人员论证了因果性的存在——用促销型词汇的申请更容易受青睐。当申请书在所有的促销词都被中性词语取代时,超过80%的替换后申请书评分显著下降(作者假设,申请书的情绪评分下降预示着获得资助的几率更小)。研究者还使用自然语言处理中的情绪分析,在更大的数据集上复现了上述结论,从而进一步论证促销型词汇与正面评价之间的因果关系。
4
语言的使用与学术成功的普遍联系
促销式的语言,不止体现在形容词上,还可使用特定的句式[4]。一项针对发表论文中促销型语言的研究【该论文直接定义为“炒作”(hype)】,考察诸如 “我们的结果显示了新的和令人兴奋的证据(Our results display new and exciting evidence of)”或“有趣的是,我们注意到证据......(Interestingly, the evidence was...)”等固定句式,研究发现这样促销型的语言使用在论文的讨论部分最经常出现,并且和出版竞争有关系。
PNAS刊发的研究只是基于单一词频的统计,这种简单的方法忽略了词汇的上下文所代表的信息。接下来进一步的研究,可以使用自然语言处理来考察长程联系。例如这项根据超过40000篇大学本科申请材料的分析[5],研究者通过自然语言处理技术,发现申请书文本对应的语义结构能够预测大学生日后的学业成绩(绩点)。具体来看,入学申请书中用词覆盖的领域越多,在概念间过渡越连贯的学生(词向量空间距离小),即使在控制了其他影响因素(性别、经济状况等)的前提下,该生毕业时的成绩会越好。尽管本科的申请材料和科研申请材料存在显著差异,但前述研究指出了语言使用和学术成功之间可能存在更为复杂的关系,这样的复杂性不应该只根据特定词频或句式的统计相关性进行衡量,而应该使用词向量等自然语言处理技术来展开进一步研究。也许通过这样的研究,能够根据促销型词汇的上下文连贯性及意外程度,区分出哪些是名副其实地使用促销型语言的申请材料,哪些是徒有其表的夸夸其谈。
5
如何看待促销型语言
以上的所有研究依赖的数据,都来自美国的公立及私立机构,由于缺少中国的类似研究,不能假定其结论适用于中国的科研申请。仅从研究的结果来看,这项研究首先指出科研人员应该不只是关注客观数据,适当地使用促销型语言,可以让自身更有可能获得资金支持。然而更值得警惕的是科研人员是否有意“夸大宣传”,在描述不那么重要的研究课题时使用过多的“促销”型语言,从而导致滥竽充数的研究挤占了本应支持更有希望项目的有限资金。
促销型语言使用的增加,背后所反映的是学科分化后的壁垒加深。尽管学术圈一直呼吁用简单易懂的语言来描述科学概念,但学科细化可能导致评审者在遇到不熟悉的领域时,会根据促销型词汇的使用情况,而非申请书本身反映的预期研究质量来决定是否给予资助。由于缺少对科研论文中促销型语言的使用与其发表刊物影响因子、创新程度等指标间关系的研究,因此难以确定促销型语言是否对科研环境及公众对科学信任程度有影响。但这无疑是一个值得关注的方向。
参考文献
[1]https://www.pnas.org/doi/10.1073/pnas.2320066121
[2]https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9679874/
[3]https://pubmed.ncbi.nlm.nih.gov/24159044/
[4] https://www.sciencedirect.com/science/article/abs/pii/S0889490617301886
[5] https://academic.oup.com/pnasnexus/article/3/5/pgae163/7665783
0
推荐