第一个自动做科研的AI出现了，我们能信任机器吗？-返朴的财新博客-财新网

研究人员创造了一个纯粹的AI科学家，从查阅文献到撰写论文，它可以实现科研全流程自动化。但对于AI在科研过程中的使用，科学家仍有不同观点。

撰文 | 郭瑞东

随着人工智能（AI）的进步，越来越多的研究者尝试在科研过程的每一步尝试引入AI，而对于能否使用AI取代科学家展开研究，学界存在激烈的争论。日前，日本创业公司Sakana AI创造出一个纯粹的人工智能科学家，他们将其命名为THE AI SCIENTIST（以下称AI Scientist），能够以每篇10美元的成本，7*24小时持续工作。该成果目前发布在arXiv预印本平台^[1]。

图1 AI scientist的工作流程丨图源：参考文献[1]

基于大语言模型（LLM）的AI Scientist是一个端对端的完整工作流（如图1所示），目前只能从事机器学习的相关研究。AI Scientist从产生新的研究议题开始，它会在网上搜索相关文献，并根据新颖性对研究思路进行排名。在实验阶段，AI Scientist可根据生成的研究思路自动编写代码并执行，负责代码审核的部分（智能体）会确保生成的代码不包含无关研究思路的内容，以减缓大模型幻觉带来的影响（大模型幻觉即生成的内容看似逻辑通畅，但不符合已有知识）。之后AI Scientist会根据代码运行的结果迭代优化实验。如果实验能得到描述实验结果的图表，AI Scientist会进行论文文稿的撰写。

AI Scientist以机器学习领域顶会NeurIPS发布语言模型类研究为模板，使用大模型Claude 3.5、GPT-4及开源的Deepseek coder和Llama-3.1，各自产生了52个研究思路；在之后的新颖性审查中，少部分研究由于不具备创新性被去除，又有部分研究思路无法通过实验验证（大模型编程能力有限），最终只有不到一半的研究最终完成论文撰写。最后，由大模型驱动的评审智能体自动生成对文稿的审稿意见和打分（表1中Mean Score项）。在成本方面，使用DeepSeek Coder模型生成每篇论文的成本仅需要10美元。

在这项研究中，作者论证了AI评审智能体给论文评审和人类专家针对2022年ICML（机器学习顶会）的评审具有相关性，且AI评审智能体对 AI Scientist 论文的评分，达到了过往发表在机器学习顶会论文的均值。这似乎说明Al Scientist生成了顶会级的研究。

该研究中所有由AI生成的论文稿件、评审意见及代码均已公开。这样的开放性使得其他研究者能够分析 AI Scientist 的结果。所以在研究公布后，有人就发现它存在“人气偏差”，偏爱引用次数高的论文。

表1 AI scientist在语言模型领域自动生成论文过程的评估结果

对于这项研究，艾伦人工智能研究所（Allen Institute for AI）的计算机科学家Tom Hope指出，“当前除了基本的流行用语肤浅组合之外，它无法制定新颖和有用的科学方向。”同时也由于当前大模型的能力限制，很多研究思路最终无法自动化地进行实验。然而即使 AI 无法在短期内完成更具创造性的研究，它仍然可以自动化地执行具有重复性的工作。此外，AI Scientist的作者指出，由于大模型幻觉的存在，对于AI生成的论文需要人工审核其代码及结果，以避免AI生成的代码以改变约束条件的方式来达成目标，或循环调用导致程序崩溃。

这项研究初步论证了AI有可能独立产生科学发现。尽管目前该系统只能用于机器学习领域，但一些科学家认为其前景光明，劳伦斯伯克利国家实验室的材料科学家 Gerbrand Ceder 说：“我毫不怀疑这是大部分科学的发展方向。”AI Scientist的多智能体协作科研的模式，也可能适用于其他研究领域，这也是该论文指出的其未来研究方向。

虽然AI自动化地完成科学研究全过程，但目前的进展还不足以说明AI能够取代科学家独立开展研究。在实际工作中，现在科研人员更多的是将大模型当作科研助手，将AI用于科研过程的某一部分：相对成功的应用是在化学领域（通过大模型驱动的机械臂自动进行实验发现新材料），以及将大模型与符号主义相结合用于数学定理的自动化证明^{[2, 3]}。

而对于AI如何在科学研究的各项任务中辅助研究者，近期一项研究给出了更加审慎的结论^[4]。

该研究通过4项心理学实验考察ChatGPT在科研领域的4种能力，分别为整理科研文献，生成科研数据，预测新颖的科研思路以及审核科研过程是否符合伦理规范。研究发现，由于大模型幻觉的存在，GPT-3.5和GPT-4分别有36.0%和5.4%的时间生成虚构的参考文献（尽管GPT-4承认其进行了虚构），说明这两种大模型不适合进行文献整理的工作。GPT-3.5和GPT-4能够复制在大型语料库中先前发现的文化偏见模式，所以ChatGPT可以模拟生成符合已知结果的数据。然而对于训练数据中不存在的新内容方面，两种大模型都不成功；并且在预测更新颖与较不新颖的结果时，都没有显著利用新信息，这说明大模型不擅长产生新的研究数据——在推断训练数据之外的事物方面能力有限。不过，GPT-4被证明能够检测到像数据操纵（p-hacking）或违反开放协议等学术不端行为，表明AI有成为一个合格的科研伦理审查者的潜力。

这项研究带给学者的启示是，大模型在辅助科研领域的能力可能不一定符合预设。例如人们会认为擅长处理文本的大模型能够整理文献，然而由于幻觉的存在，事实并非如此；且文献整理也不仅仅是罗列相关研究，而是搭建有清晰逻辑的认知框架。而大模型在审核研究是否符合伦理规范上表现较为优秀，考虑到一般情况下认为大模型缺少批判性思维，这一结果可能出乎一些人的意料。预期和实际结果的差距突显了用于科研的AI所具有的复杂性，值得科研人员进一步研究。

除此之外，科研人员在使用大模型时，尤其要注意大模型有可能会生成不存在的数据。前述的AI Scientist在进行自动化研究时，出现过这样的情况：当代码无法达到预期的评价指标时，它不是试图在下一轮迭代时修改代码，而是降低评价指标使代码看起来合格。无独有偶，根据此前报道^[5]，ChatGPT能够按照使用者的要求，创建没有真实原始数据支持的数据集，该数据集可与现有证据相反或研究方向不同。对此，微生物学家和独立科研诚信顾问Elisabeth Bik表示：“这将非常容易让研究人员对不存在的患者进行虚假的数据测量，对问卷调查制作假答案，或生成关于动物实验的大型数据集。”

这些案例提醒人们在引入大模型协助科研时，需要注意大模型会虚构数据，尤其是当使用大模型驱动的智能体自动化展开研究时，需要科研人员去打开黑盒而非盲目信任大模型的结果。

上述的几项研究，从不同学科为切入点，讨论了将大模型引入科学研究所带来的机遇和风险。考虑到科研活动自身的复杂性及不同学科的异质性，对于如何更好地在科研过程中用好AI，需要分学科分别进行讨论。科研过程不可避免地包含很多重复性的操作，将这些重复步骤自动化，能解放科研人员的宝贵时间，有助于他们聚焦于科学问题。从这一方面来说，AI作为辅助工具具有广阔的应用前景。然而由于其能力的多变，其使用方法还需要系统性地摸索和考察。

人们无需担心AI的引入会取代科学家，但AI无疑在改变科研全流程的方方面面。

参考文献

[1]

[2]

[3]

[4]

[5]

话题：