大语言模型会推理吗？-返朴的财新博客-财新网

大语言模型很有用，但不能解决人工智能的基本问题，包括推理。

撰文 | 王培（美国天普大学计算机系）

自从ChatGPT在两年前横空出世，各种大语言模型一次又一次地刷新人们的认知，以至于连 “通用人工智能即将到来” 都从狂人呓语成了陈词滥调，已经不足以被用作 “震惊体” 的标题了。即使是见惯此间风云变幻的人，对此也难免生出恍如隔世之感。今年的诺贝尔奖两次授予了其背后的人工神经网络技术，更说得上是 “烈火烹油，鲜花着锦” 。

但与此同时，在学界内部一直存在的质疑声音也开始增加音量。最新的《人工智能杂志》（世界上最大的人工智能学术组织AAAI的会员刊物）的封面文章就直言关于 “可解释的人工智能” 的研究已经陷入泥潭[1]，而 “难以解释”正是深度神经网络的一个令人诟病之处。近期苹果公司研究人员的一篇研究报告更是声称大语言模型根本不会逻辑推理[2]，因而掀起了轩然大波。

双方辩词

关于深度神经网络是否会推理的争论已经进行若干年了。苹果公司研究部的文章[2]测评了大语言模型在数学领域中的推理能力，其材料是经过 “微调” 的一批原本已经能被大语言模型较好解决的 “数学应用题”。用我们在小学很熟悉的那种题目做例子，其修改包括（1）替换其中的专有名词（就像把关于 “小红” 的问题改成关于 “小明” 的），（2）改变其中的数字（就像把题目中的 “3.5小时” 改成 “2.8小时” ），（3）添加无关信息（就像在关于 “小红登山” 的问题中加上关于 “小明钓鱼” 的描述）。尽管这种修改不涉及这些数学问题的逻辑结构，却造成了答案正确率的大幅下滑。文章的结论是大语言模型既不理解这些问题中的数学概念，也不能进行逻辑推理，而仅仅是将面对的问题和训练数据中的问题相比较而已。因此，即使那些正确答案也仅仅体现了系统的记忆和匹配能力，而非其逻辑推理能力。我在去年评论ChatGPT时[3]就说过它不会逻辑推理，理由是其结论质量取决于相关训练数据的多寡，所以说只能算是总结了人们的大量推理过程—— “无他，唯手熟尔”。这也正是[2]中的测评结果所佐证的。

但这个测评结果尚且不足以为此争论一锤定音。那些认为大语言模型能推理的人在这个问题上的推理过程大致是这样的：“某些问题是人们通过推理来解决的，因此它们的解决需要推理能力。现在大语言模型解决了这些问题，因此它们会推理”。根据这种看法，大语言模型已经在很多问题上显示出远超常人的推理能力。在这种时候，还以某些错误结论为由说它不能推理，这总难免 “以偏概全” 和 “吹毛求疵” 之嫌。以相关技术发展之神速，怎么知道下面一个版本就堵不上这些漏洞？OpenAI不是已经把 “推理” 列为当前的主攻方向了吗？
在至今的辩论中，正反双方的主要举证手段还是各自寻找大语言模型在推理中的各种成功或失败的案例。这种做法的好处是证据具体和可验证，但总有管中窥豹之感。这些成功与失败在多大程度上揭示了系统的一般推理能力，而目前的缺陷中又有多少是可以被后面的研发所克服的？

何为“推理”？

曾经有人说过，很多争论其实都源于对基本概念的不同理解，而这也正是我前面很多文章都是从概念分析开始的原因 – 不是喜欢咬文嚼字，而是非如此不能抵达争论的核心。

“推理” 通常被说成 “由已知判断（前提）推出新判断（结论）的过程”，但如果不对 “推出” 加以进一步限定，那显然就过于宽泛了。把前提反过来读一遍肯定不能算推理吧。这里的“推出” 当然是指 “正确地推出”，但问题恰恰就在这里：“正确” 与否是根据什么标准确定的？

对推理的研究有两个不同的学术传统。

逻辑学和数学研究的是推理的规范性理论和模型，其目标是将推理的正确性（也称 “有效性”）建立在一个体现理性的普适标准之上。传统的推理有效性标准是 “保真”，即保证从真前提推出真结论，而一个逻辑系统就是由满足这个标准的推理规则组成的。这些规则是抽象的，只关乎于前提和结论的形式，而与其内容无关，如在[3]中提到的，从前提 “A是B” 和 “B是C” 中推出结论 “A是C” 的正确性就不取决于其中的字母代表什么东西。

心理学研究的是推理的描述性理论和模型，其目标是总结人类推理活动中所实际遵循的规律。这样一来，其中的 “正确性” 就和其它经验科学类似，是指 “理论预测符合实际观察” 了。

尽管这两类理论有一些相近结论（要是完全不同就麻烦大了），但其间的差异也早就广为人知。其中典型的例子是我在[4]中介绍过的 “华生选择任务”，这里就不再重复了。

这两个传统在人工智能研究中都有体现。人工智能中的推理研究从一开始是基于以数理逻辑为代表的规范性理论的，但为了贴近人类的现实思维尝试了各种 “修正”，也取得了一定的成功，尽管总的说来还是过于理想化，不足以处理各种复杂的实际问题。

与此不同，深度学习（包括大语言模型）中的推理则可以说是在一定程度上借鉴了描述性理论的精神，即根据人们的推理实践（而非抽象的理性原则）来确定模型的行为。即使如此，其中的具体做法仍和心理学完全不同。心理学和逻辑学一样把一个推理过程看作由一系列推理步骤组成，其中每个步骤都有其可以识别、研究的规律，只是这种规律性体现在人们的实际行为中，而未必能被某些抽象原则（如 “保真”）来统一解释。由于神经网络模型中的推理行为是用人们解决实际问题时的前提和结论（在大语言模型中往往体现为语句间的先后顺序）以 “端到端” 的方式来训练生成的，跳过了中间步骤，其正确性的标准也就是 “人们从给定前提中是否推出相同结论”，而不太在乎这些结论是如何逐步生成。在计算机强大的信息处理能力和海量训练数据的支撑下，这种推理模型取得了令人瞩目的成功，但同时也有若干令人诟病之处：

端到端训练放弃了对中间步骤的管控，因此过程和结果难以理解。

对训练数据的依赖造成了概括结论中的 “偏见”、“过拟合” 等问题。

在训练数据不足的问题上靠和样本的统计相似性猜测答案，正确性难以保证。

由于这些问题都是神经网络模型的 “本性” 所决定的，因此无法用技术手段彻底解决。比如近期流行的 “思维链” 体现了填补中间步骤的努力，但这种 “链” 中的 “环节” 仍大多数是可以进一步分解的推理过程，而非基本的推理步骤，而且其正确性标准仍是由训练数据来确立的，因此不具有普适性（领域无关性）。这次苹果公司研究部的测评恰恰是要求这种描述性模型解决规范性理论（数学）中的推理问题，因此表现欠佳就不足为怪了。

先天与后天

在推理的规范性模型和描述性模型的各种表面差异背后体现出的是对智能（或者说 “认知”、“思维” 等等）的先天因素和后天因素的不同观点。尽管所有的人都同意二者不可或缺，但对各自的作用仍看法迥异。规范性模型中的推理规则基本是先天确定的（尽管所用的推理前提可以后天获得），而在描述性模型中的推理规则可以来自后天训练（尽管训练所遵循的算法是先天给定的）。具体到神经网络模型，更是将 “推理” 看成问题的 “已知” 与 “结论” 的关系，而不再限定从已知到结论的生成过程。这种做法极大简化了这种模型的构造和应用过程（只需要提供训练数据，而无须说明对问题的解法），因此是其成功的重要原因，但同时也是前面提到的那些问题的根源所在。

除了推理模型之外，这种对先天因素和后天因素的不同对待同样出现在语言模型中。在对自然语言理解的研究中，开始占统治地位的 “规则学派”（乔姆斯基学派）认为语言能力（尤其是语法结构）基本上是先天的，而后天的学习只起到 “激发潜能” 的作用，而目前占上风的 “统计学派”（以神经网络模型为主要实现方式）则认为 “一切皆可学”，而所需的先天成分只剩下（体现在学习算法中的）对训练数据的泛化能力。

如果进一步追根寻源，这种体现在不同领域中（不限于上面提到的推理和语言）对先天因素和后天因素的分别强调可以说各自体现了哲学中的理性主义和经验主义，而这二者之间的关系既不是谁对谁错这么简单，也不是能靠 “有机统一” 就可以糊弄过去的。对人工智能系统设计者来说，最重要的决定就包括区分哪些机制和内容要提前设计好，而哪些该留给训练和教育。纯粹遵循理性主义的系统往往过于刻板，无法处理环境的复杂性，而纯粹遵循经验主义的系统则又常常囿于过往的经历片段，难以保证判断的普适性。用推理规则来做比喻，前者就像全靠演绎推理解决问题，其优点是准确可靠（“保真”），但超出预设前提的范围就束手无策了，而后者就像全靠类比推理解决问题，其优点是灵活机变（如果不在乎生拉硬拽，万物皆可比），但常常陷入自相矛盾的境地。

在和人类智能相比较时，我认为人工智能系统的（先天）设计应当遵循和人类接近的理性原则，但其具体行为应当基于其自身（后天）经验，而非试图完全复制人类行为。落实到我所设计的推理模型 “纳思” 中（见我以前的专栏文章），就是在设计中体现从人类推理行为中抽象出来的推理规则，而不指望系统自身能够学会它们。在另一方面，让系统的信念、愿望、概念完全来自于系统自身的经验（包括感知运动经验和言语通信经验），而不依靠事先植入的 “真理” 或 “事实”。简单说来，对纳思的设计就是试图以一套类似于人类先天逻辑的推理规则为元逻辑来实现智能。我不是说在人脑中有一套符号化的推理规则，而是说我们的自然推理过程是有规律可循的，而这些规律可以被整理成符号化的推理规则而不失其基本特征。在这里，一般意义下的 “逻辑” 和具体的“逻辑系统” 必须加以区别。逻辑学从开始就是研究普遍有效的推理、论辩规范的，而我们平时判断某个论述是否 “符合逻辑” 也是这个意思。至于将 “推理有效性” 定义成 “保真”，并具体用符号语言描述成一个规则系统，则是对推理规范的一种特定理解。即使现有的所有逻辑系统都差强人意，“人类推理本无规律可言” 也不是必然结论。如果真是如此，为什么我们仍可能在一定程度上理解以至于接受他人（包括古人和外国人）的大量推理过程及其结果呢？基于 “智能系统的推理遵循普适规则” 的信念，纳思的推理机制被设计成一个规范性模型，其结论的正确性是根据纳思所依据的理性原则来确定的，而不是非以人类的流行看法为是非标准。但和传统的规范性模型不同，纳思的设计预设是系统需要在知识和资源相对不足的条件下适应环境，因此判断一个具体结论的正确程度的根据是系统的过去经验，而非客观事实或未来经验。这样一来，纳思从知识内容上说又是个描述性模型，只是其中总结的是其自身经验，而非人类经验。这样做的结果是纳思和各种传统推理模型均有相似之处，但又都有根本性差别。

和大语言模型相比，纳思的推理规则都是在设计过程中确定的，与系统经验无关，也与应用领域无关。由于这些规则来自 “在知识和资源相对不足的条件下适应环境” 的需求，而人类的推理机制也是为了满足这一需求而进化出来的，因此纳思的推理过程和结果都和人类有大量相似之处，因此是原则上可解释的（尽管对复杂问题不会很容易）。由于纳思的推理结论来自于系统经验，其经验局限性当然也会造成偏见和误判，但这种知识内容上的缺陷不等于系统推理能力的缺陷。

由于纳思所遵循的 “先天逻辑” （称为 “非公理逻辑”，见[5]）不同于数理逻辑，也不包含数学，系统仍需要通过学习来掌握这些理论，而这种学习是使用其先天逻辑来进行的，和对人工神经元网络的训练完全不同。如果让纳思在学习相应的课程后来做数学应用题，它也可能犯各种错误，但这些错误会更接近于小学生们所犯的，而非大语言模型所犯的。由于纳思的研发还没有到能对此进行实测的程度，所以可以将此当作一个尚待检验的预言。

推理能力的来源

根据上面的分析，大语言模型可以被看作一种特殊的描述性推理模型，它们通过总结人类相应行为来完成某些推理任务。管这种能力叫做 “会推理” 不能完全算错，但说它们 “不会推理，只会模式匹配” 应该说更准确，因为它们的确是将一个人类需要通过逐步推理来完成的任务看作一个端到端的映射（从输入到输出的函数），并通过和已知映射关系的匹配来完成任务的。尽管这两种过程在解决问题的范围上有很大的重合部分，其差别仍是不该无视的。如果硬要推广 “推理” 这个词的适用范围，那也应该说大语言模型 “会推理，但不遵循任何逻辑”。有人认为人工智能有不同于人类的逻辑，但要论证这一点，需要将其推理规则置于更基本的理性原则（如 “保真”、“适应”）之上，而至今我还没有见到这种论证。

不是所有解决问题过程都可以被称为 “推理” 的。直观说来，需要一步一步地 “推”，而每步都要有 “理” 才行。当然这种 “字面意思” 不是定义，但只是靠背诵或查询答案来解决问题肯定不能算推理，尽管这些答案可能是前人通过推理得到的。大语言模型当然不是背诵或查询这么简单，但离 “根据合理的规则或模式，逐步从已知生成答案” 这种对 “推理” 的传统理解差得就更远了，而这也就是说它们难以解释或 “不会推理，只会模式匹配” 的原因。对实际应用而言，它们的 “推理能力” 对某些需求而言是够用的，但对另一些则完全不够。尤其是不能认为这就算是实现了智能系统的 “推理” 功能了。即使对心理学中的推理研究都不能完全按大语言模型的办法做，更不必谈逻辑学和数学了。大语言模型在这些学科中仍然有用，但那是另一些用途（比如总结现有研究结果）。

这不是说大语言模型不能学习逻辑和数学知识。一个信息系统中的 “知识” 通常是存在于两个层面上的，一般分别称为 “对象知识” (Object-level Knowledge) 和 “元知识” (Meta-level Knowledge)。具体到传统意义下的推理系统中来说，作为推理前提和结论的知识属于前者，通常是以语句的形式存在的，可以在系统运行过程中增删和修改，而体现在推理规则中的知识属于后者，通常是以程序的形式存在的，在系统运行过程中保持不变。在大语言模型中，训练过程中可调整的那些参数就对应于对象知识，而完成这种调整的算法就对应于元知识。和前面的讨论相联系，可以说元知识基本是先天固有的，而对象知识是后天习得的。

这两种知识可以相互影响，并在一定程度上相互替代或转化。我们可以学习一种逻辑并根据这种逻辑进行推理，但这种后天习得的逻辑不可能完全取代我们先天固有的 “元逻辑”，即人类推理活动中自然遵循的法则。即使是完全没有受过逻辑学教育的人，其思维活动仍大体上是符合这种逻辑的。在另一方面，即使是逻辑学家和数学家，也不可能用他们的理论知识（比如一阶谓词逻辑或概率论）来完全规范他们在日常生活中的推理活动。我们当然可以教给大语言模型任意一套逻辑，包括纳思所遵循的那种，但这对大语言模型而言只是 “对象知识”。它可以据此回答查询，但不能完全以此规范其推理活动，就像人们可能对某种理论倒背如流，但不能总是以此指导行动一样。
我们的经验可以影响我们的思维活动，但不能决定其中的所有过程，其主要原因就是对 “元知识” 的掌控不能和 “对象知识” 达到同等程度。同理，我们可以通过训练教给大语言模型一套不同的学习算法，但无法以此替换其固有的学习算法。

即使我们无法在自己的思维规律中动手脚，但为什么在我们设计的计算机系统中不能取消 “对象知识”和 “元知识” 之间的区分呢？能不能让某种人造神经网络调整自身的学习算法，或者让纳思根据经验调整自身的推理规则？这在一定程度上的确有可能，但未必是个好主意（比如会破坏系统自身的一贯性），也不可能完全做到（比如需要靠 “元元知识” 来修改 “元知识”）。由于这个话题超出本文的焦点，就不再进一步展开了。

如果智能系统的 “固有逻辑” 不能从自身经验中总结出来，那么人的这种元知识是哪里来的？尽管我相信智能系统是可以被设计出来的，这不意味着我认为人类智能也是某种设计的结果。相反，在纳思中所体现的 “推理观” （推理是概念替代，而概念是对经验片段的抽象，因此适应系统可以通过推理将过去经验应用于解决目前情境中的问题）可以在动物智能中发现其雏形。因此，智能系统的元知识既可能来自设计，也可能来自进化，只是我不觉得通过进化来得到人工智能比设计它们更可行罢了（尽管作为一个补充手段还是值得考虑的）。这个问题在[6]中有讨论，在这里就不多说了。

总而言之，我对大语言模型的基本评价还和[3]中一样：很有用，但不能解决人工智能的基本问题，包括推理。

参考文献

[1] XAI is in trouble, Rosina O Weber et al., AI Magazine, 45:300-316, Fall 2024

[2] GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models，Iman Mirzadeh et al., arXiv:2410.05229v1, Oct. 2024

[3] 深度剖析：ChatGPT 及其继任者会成为通用人工智能吗？王培, 《返朴》 2023年03月15日

[4] AI是理性的，人类是非理性的，果真如此吗？王培, 《返朴》 2021年07月14日

[5] 你这是什么逻辑? 王培, 《赛先生》 2016年08月10日[6] 《智能论纲要》，王培, 上海科技教育出版社，2022年09月

话题：