卷积神经网络之父杨立昆：发现智能原理是AI的终极问题-返朴的财新博客-财新网

在《科学之路：人，机器与未来》一书中，图灵奖得主，卷积网络之父杨立昆（Yann LeCun）提出，在科学史上，技术产品的出现往往先于解释其工作的理论和科学。发现智能工作的潜在机制和原理，是他未来几十年的研究规划。

新书分享会上，北京智源人工智能研究院院长黄铁军、清华大学计算机系副教授刘知远、知名科学科普博主袁岚峰三位人士，就AI是技术还是科学、人工智能的生物启发等话题进行了高屋建瓴的探讨。智源社区针对访谈核心内容进行摘录，并进行了不改变原意的整理。

嘉宾 | 杨立昆（Yann LeCun，纽约大学教授）、黄铁军（北京大学计算机学院教授）、刘知远（清华大学计算机科学与技术系副教授）、袁岚峰（嘉宾主持，中国科学技术大学副研究员）整理 | 李梦佳、周致毅

01、神经网络的诞生——反向传播算法的前世今生

（首先，杨立昆介绍了神经网络和反向传播算法的诞生历程）

杨立昆：人们认识我大多源自于卷积神经网络。这种模型是一种组织神经元之间的连接，并将神经元组织成多层结构的特殊方式，其灵感来自哺乳动物的视觉皮层结构。这种模型结构非常适合于图像识别甚至医学分析等领域的应用。

比如，现在车辆的挡风板上都有感应摄像头，能识别到汽车前方的障碍物，及时自动停车，避免碰撞。现在的大屏电视，可以从低分辨率信号中获取高分辨率视频。这也被用于医学中的肿瘤自动检测系统，如拍X光片和核磁共振等医学成像技术。这些都是源于卷积神经网络。我参与发明的技术无处不在，甚至可以挽救生命，这是我引以为傲的事情。

其实神经网络最初的想法来自上世纪60年代Hubel和Wiesel在神经科学领域的经典著作。上世纪七八十年代，日本科学家福岛邦彦，构建了首个基于无监督学习的卷积神经网络，但当时还没有反向传播算法，训练效果受到一定局限。而我和同事们是第一批成功实践了卷积神经网络的人（即杨立昆1988-1989年期间在贝尔实验室提出LeNet）。

当时没有PyTorch、TensorFlow等工具，需要自己写深度学习环境，也没有Python，需要写自己的语言进行交互。当时也没有Linux和Windows操作系统，需要使用昂贵的平台来处理图像系统。因此，当我们付诸心血来构建能实现它的工具，并精心设计结构使其奏效之后，便开启了一种新的技术突破。在我看来这项突破并不算知识突破，因为站在知识的角度上，其原理早已存在。

杨立昆在贝尔实验室期间提出LeNet

卷积神经网络的成功离不开反向传播算法。1986年，我用法语写了一篇论文发表，却无人问津，如果用英语写也许会让更多人看到，我在书里也写到了这个故事。当时我独立地提出了反向传播算法的原型，并不知道Hinton也有相似的观点。在20世纪60年代，即使人们知道使用多层卷积可以提升神经网络的效果，也无法设计出合适的优化算法。

因为他们使用的是二进制神经元，函数的间断导致在一些区域内导函数不存在，模型无法利用基于链式法则的反向传播算法进行参数优化。反向传播算法是深度学习的基础优化算法。这种算法的设计思想与上世纪60年代提出的现代控制理论中的最优控制理论有关，所以其基本思想非常古老。

除了链式法则，它不需要任何复杂的数学公式。在一个诸如神经网络这样的多层结构中使用链式法则的想法，直到20世纪80年代才萌生。在接下来的10年中，人们又由于理论晦涩而对反向传播失去了兴趣，认为这种算法没有前景，即使事实恰恰相反。从21世纪初到2010年代，我和Geoffrey Hinton、Andrew Ng等人花了很大功夫才让业界相信这行得通：这不是侥幸，也并非意外。

袁岚峰：在《科学之路》中，你提到曾发明了一个名为HLM（Hierarchical Linear Model）的模型，虽然结构很简单，但因为使用了非连续函数，所以距离深度学习仅一步之遥。如果你改用Sigmoid或其他连续函数，模型是不是就可能成功？

杨立昆：是的。当时我之所以坚持使用二进制神经元，是因为当时的计算机运算速度没有如今这么快。所以我认为如果使用二进制神经元，就可以大大缩减运算时间。为了能够实施反向传播，我认为每个神经元可以反向传播目标输出，而不是其中间变量。但结果表明，为了能够有效地更新模型参数，依然需要连续型变量。因此在当时的情况下，HLM距离正确方法确实只有一步之遥。

02、AI：技术or科学？

黄铁军：我认为AI首先是技术，而不是科学。AI研究人员需要做的是构建、设计强大的智能系统。如果系统运行良好，我们再去尝试探究系统运行良好的原因，这才是科学。所以我的观点是，AI首先是技术，之后我们再去研究原理和系统，这也是我在您书的中文译本序言中阐述的基本观点。所以我想就这个问题与您交流一下。

杨立昆：在我看来，AI的首要属性是创新性，即构思并设计一种新产品、新系统和新想法，确实是一种创造性的行为。这是工程领域的工作，就像艺术家们的事业一样。而科学家所要做的是提出描述世界的新概念，然后使用科学方法研究解释系统的原理，这也是AI的两方面。研究AI，既是一个技术问题，又是一个科学问题。终极问题是，我们要试图弄清楚智能是什么。我们不仅需要构建人工智能系统来进行视觉和自然语言理解，还需要了解智能的本质。以蒸汽机为例，新发明会推动理论研究。在科学家们发明蒸汽机百余年后，热力学诞生了，而热力学本质上是所有科学或自然科学的基础。因此，我们在AI中发明的人工制品可能是科学或智能本身，或者说这是我们的愿景。

黄铁军：你在书中分享了一些例子，1903年的莱特兄弟，以及更早期的克莱门特，他们发明了飞机。三十多年后，西奥多·冯·卡门发现了空气动力学理论。在这个例子中，飞机的发明与空气动力学至少是同等重要的。所以对于人工智能来说，例如深度学习效果很好，它是一项发明，一种贡献，是一个非常强大的人工智能系统。当然，我们需要探究深度学习为何如此有效，但那可能是很多年以后的事了。也许二三十年，甚至更多年以后才能有所发现。作为BAAI的院长，我认为，需要有人探究人工智能系统的原理。与此同时，可能也需要更多的人来设计更强大的系统。

03、关于生物启发智能

杨立昆：我了解到BAAI也研究人类大脑的结构，试图理解大脑的运行机制。就功耗而言，现在大脑的效率远高于计算机的效率。假设要使计算机达到人脑的算力，能耗可能是人脑的一百万倍，但这并不意味着计算机可以复制大脑所做的事情。大脑的能耗量只有25瓦，相当于一块普通GPU。人脑究竟是如何做到的呢？生物学给了我很多灵感，好比卷积神经网络的灵感来自视觉皮层的架构。但是，正如我在《科学之路》之中提到的，如果科学家太依赖生物学，在不了解基本原理的情况下试图复制生物现象的一些细枝末节，那将难以构建准确有效的系统。

我举个例子，19世纪后期法国航空业的先驱克莱门特·阿代尔是一位出色的工程师，他制造的飞机实际上在19世纪90年代就可以靠自身的动力起飞，比莱特兄弟早了30年。但是他的飞机形状像一只鸟，缺乏可控性。所以飞机起飞后，在离地面大约15厘米的高度，飞行了15米就坠毁了。究其原因，是他只考虑到了仿生但没有真正理解其中的原理。

阿代尔的飞机充满了想象力，在引擎设计方面他是个天才，不过由于缺乏空气动力学的理论支撑，他的设计终究没有走远。所以对于试图从生物学中获得启发的人来说，这是一个有趣的教训，我们还需要了解基本原理是什么。生物学中有很多细节是无关紧要的。

黄铁军：我同意你关于生物启发或者大脑启发的观点，只是有一点不同，关于大脑的原理，脑科学家们已经探索了至少100年。但是对于AI，每十年或者二十年就可以有新设计。对我来说，生物学的启发就是视觉皮层的结构，来启发我们去设计一个新的ANN结构，参考神经元突触等的原理，并不一定是全脑的理论。我们基于可用的资源去设计人工神经网络，这就是我们在BAAI所做的事情。

杨立昆：这个问题其实是是否使用脉冲的问题。现在的人工神经网络，基本上神经元的输出是通过数字编码的，用数字表明它们的活动。但是大脑中的神经元不输出电压或类似的东西，它们输出脉冲信号。这种输出的强度被称为脉冲频率，所以其中一个问题是，像大脑一样使用脉冲信号是否重要，而不是像目前在人工神经网络中那样只用数字来表示。

很多人都会有这种疑问，有些人认为我们应该使用源于硬件设计的脉冲，因为就软件的能耗而言，脉冲信号传输更经济，即使速度较慢。以脉冲神经网络为例，所有的人都认为它有魔力。大家不懂其中的原理，仅仅是因为大脑使用脉冲，就在神经网络中引入脉冲信号，我不认同。况且，现在性能最优的神经网络并不使用脉冲信号进行传输。这是我对是否应该从神经生物学中获得更多启发的回答。

黄铁军：关于这一点，我想和您分享一个我引以为傲的事情。我的一个博士生近期发表了一篇关于视网膜编码原理的论文。她设计了基于CNN的神经网络来模拟人类眼部的活动。这是截至目前最好的一个模型。我的团队正在设计一款“超高速脉冲相机”。

杨立昆：我知道，这是上世纪80年代末和90年代初的热门话题，一种基于脉冲的模拟电路，可再现神经元的功能，采用脉冲神经网络来编码数据。这一课题一度陷入低迷，但因为人们对用于AI和神经网络的低功耗硬件很感兴趣，现在又重新回归了。至于它相较传统应用的优势，我认为还需数年的研究来证明。当然在这一领域还需要大量工作。

有趣的是，对于所有脊椎动物来讲，视网膜都是大脑的外延。眼睛收集光线，而视网膜必须压缩通过眼睛的信息。因为将视网膜连接到大脑的神经必须经过一个眼球部位，那里是生理盲点，视觉纤维汇集向视觉中枢传递的出眼球部位（无感光细胞），如果那个位置在你的视野中，不能引起视觉，你什么也看不到。虽然大脑会收到信息，但实际上在那你什么也看不到。视网膜大约有五千万到一亿个感光细胞，但视神经与大脑的连接只有一百万个，因此在传输图像之前，必须在视网膜中进行大量的预处理和动态压缩。这是进化中的错误。所有的脊椎动物都是这样。但无脊椎动物不是。章鱼和鱿鱼的视网膜后面有神经，所以它们没有这个问题。这是更好的设计。与脊椎动物相比，无脊椎动物的进化更加幸运。

所以我们可以问自己一个问题。如果要重现与人类具有相似性能的视觉系统，我们要解决在视网膜和大脑之间传输的信息瓶颈吗？有神经科学家正在建立网络模型，来处理视网膜和大脑之间传递的信息。这是我对进化的看法。生物学也并非绝对正确。就这一方面来看，脊椎动物有点不走运。

黄铁军：是的，我完全同意。实际上，我的学生设计了一个模型来模拟视网膜功能，这是从生物学角度入手的。同时我自己的团队设计了一个照相机。如你所说，相机设计不在乎输出带宽，所以输出光纤会将动作电位高速传向计算机。我们在同时进行这两项设计。

04、如何看待大规模NLP预训练模型

刘知远：近几年，我们见证了机器学习方法从监督学习到自监督学习的成功发展。我们可以在预训练的语言模型上使用大量无标签数据进行微调，而参数量也增长到上千亿级别。我很好奇你对这种大规模预训练语言模型的看法？

杨立昆：人工智能界在过去两三年中产生了重大变革，一种新型的神经网络架构——Transformer问世。

实际上，这种架构类似于记忆模块，当给模型输入一连串向量，其可以产生另一个关联的向量，通过查询恢复相关的记忆。所以Transformer是大量相关记忆模块以特定形式排列的架构，这种架构可以将训练数据中所包含的信息挖掘并存储下来。当一串文字输入到经过预训练的Transformer模型中，可以使其预测下一个单词。这些模型具有少则数十亿，多则上万亿的巨量参数。

采用非常丰富的数据来源，数据量十分惊人。这就相当于给模型赋予了一些以文本编码的人类知识，使其学习到人类世界的先验信息，而这些先验知识的内容往往又极其丰富，因此模型在处理自然语言方面常常能有令人惊艳的表现。

诸如Transformer这种大规模自然语言处理预训练模型的使用，标志着自监督学习的方法在深度学习领域开始引领革命的旗帜。和传统监督学习、强化学习等机制不同，自监督训练一个模型不是为了完成某一特定任务，而是为了训练其了解数据的能力。所以这种学习方法的运行方式是，去除句子中10%-15%的单词，训练系统预测缺少的词汇。

在这个过程中，系统开始构建对文本含义的理解。举个例子，如果将“猫在厨房追”作为模型的输入去预测下一个单词，那么答案应该是老鼠或者其他小型动物，因为这样的预测符合现实世界的逻辑。而如果将“狮子在大草原追”作为模型的输入，那么输出就应该是瞪羚或其他草食动物。虽然根据这些有限的信息，模型可能无法准确得出具体在追什么，但是由于存在猫、狮子、厨房以及大草原这些信息作为先验，模型可以预测出一个大致的范围。

而如果仅仅给模型输入“XX在XX追”，由于缺少行为者和具体的场景，模型将很难判断空缺位置应该填入什么。所以说，这种基于大规模预训练模型的自监督学习，就是给系统注入了人类世界的先验知识，使得在处理语言任务时，能够联系输入向量的上下文信息做出合理判断。而这种自监督学习方式，也是对自然语言处理任务的巨大变革。

05、关于自监督学习

刘知远：您将预训练语言模型称为一场变革。您认为预训练模型或者自监督学习是实现人工智能终极目标的方式吗？如果是的话，我们应该如何提升自监督模型效果？

杨立昆：我的答案是肯定的。我认为现在人工智能的一个巨大机遇就是从人类和动物身上学习经验，最好的范式就是自监督学习。自监督将变革人工智能，并让人工智能取得更大的进步。这种学习方式使得人们可以使用少量数据就能进行模型训练。当需要系统完成特定任务时，不需要过大的数据量，只需要按照现有的监督训练方式标记数据即可。一个小孩出生两个月内，学会了基础的事情，比如世界是三维的，物品摆放有前后方位之分，身边的每个方向都有相对的距离。这些是很简单的概念。

之后，他学会了即使是在目光所不及的地方，物体仍然存在。这就是所谓的事物的永久性。到八、九个月时，他学会了如果物体没有支撑，就会掉落，重力对每个物体都有影响。在出生后的九个月里，小孩学会了很多基础的环境知识，了解了世界的运转方式。他们在大脑中建立了对世界的认知模型，使得他们可以预测即将发生的事情，了解世界，区分动物和静物，弄清楚如何移动物体、如何组装零件。在我看来，这种学习机制与自监督学习十分相似，但却和我们现在使用的监督学习、强化学习迥异。

我认为，研究大脑的学习原理是更有效的途径，我们去复制学习的原则而非直接再现大脑的功能，因为大脑过于复杂。图灵在二十世纪五十年代就曾说过，如果想创造智能机器，复制小孩的大脑比复制大人的更合理，因为机器可以学习并自我进化。

06、写作《科学之路》的动因

袁岚峰：我代表大众问一个问题：你为什么要写这本书？

杨立昆：原因很简单，因为有需求。人们见证了生活被人工智能改变，也意识到未来将有更大的改变。因此对大众而言，了解人工智能的一些知识是很重要的。这本书分为三个部分。第一部分是历史，解释了基础概念，讲解神经网络和深度学习的发展；第二部分讲述数学、算法和计算机科学的基础原理，读者不需要具备相关的知识储备，仅具有高中及以上的水平就可以读懂；最后一部分是人工智能在今天的应用，包括机器翻译、内容审核、计算系统等，还介绍了未来的发展趋势，探讨人工智能到底在研究什么。这一部分里我所讲述的是我的主观观点，而并非是业内专家们的共识。人工智能对社会可能存在的影响有哪些？潜在应用有哪些？我在本部分表达了我对未来的观点。

总而言之，第一和第三部分所有读者都能读懂，而如果你想了解其中的原理、获得一些灵感的话，可以阅读第二部分。之所以加入第二部分是因为，回想我自己的学生时代，对人工智能很痴迷，但当时的人工智能还处在萌芽阶段。对于一个初学者来说，很渴望的是一本简明扼要介绍基本原理的书，而非一本全是晦涩概念的书。所以写作这本书的另一个目的是启发青年学生，让他们更多地了解人工智能，因为这是一个充满吸引力且重要的领域。

07如何看待中国的人工智能研究

袁岚峰：最后，您有什么话想对中国读者说吗？

杨立昆：在我看来，中国年轻人对人工智能热情高涨。而且不仅是年轻人，政府也对投资、研究和部署人工智能很重视。过去的几十年里，中国的科学界非常活跃，取得了令人难以置信的成就，而其中最为出色的领域之一就是人工智能和深度学习，计算机视觉顶会中有一半都是中国的论文。

另外，我对于技术应用很乐观。不过与此同时，我们也应认识到，人工智能是一把双刃剑，利弊取决于如何使用。在中国、欧洲和美国，人们对于在社会中使用和接受人工智能的看法也不一样。错误地使用人工智能会侵犯隐私。我们需要重视如何在国家层面构建法律体系和政策或商业法规等，保护公众免受人工智能的负面影响。当然，这个过程需要一些时间的沉淀。

本文经授权转载自微信公众号“智源社区”，原题目为《Yann LeCun：发现智能原理是AI的终极问题 | 独家对话》。

话题：