2024年图灵奖公布！授予两位强化学习领域奠基人-返朴的财新博客-财新网

强化学习先驱安德鲁·巴托与理查德·萨顿获此殊荣。

编译 | 返朴

当地时间3月5日，美国计算机协会（ACM）宣布，安德鲁·巴托（Andrew G. Barto）和理查德·萨顿（Richard S. Sutton）因开发强化学习的概念与算法基础，荣获 2024 年 ACM A.M. 图灵奖。自 20 世纪 80 年代起，巴托和萨顿在一系列论文中提出了强化学习的核心思想、构建了数学基础并开发了重要算法，使其成为创建智能系统的关键方法之一。

ACM A.M. 图灵奖素有 “计算机界诺贝尔奖” 之称，以英国数学家艾伦・图灵（Alan Turing）命名，他奠定了计算的数学基础，通常被认为是理论计算机科学和人工智能的创始人。该奖从1966年开始颁发，2014年起奖金为 100 万美元，由谷歌公司提供。

安德鲁·巴托（Andrew G. Barto，1948-），马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。他于1977 年加入该校，先后担任副教授、教授，曾任系主任。巴托拥有密歇根大学数学学士、计算机与通信科学硕士及博士学位，马萨诸塞大学神经科学终身成就奖、IJCAI卓越研究奖和IEEE神经网络学会先驱奖；电气电子工程师协会（IEEE）会士、美国科学促进协会（AAAS）的会士。

理查德·萨顿（Richard S. Sutton），阿尔伯塔大学计算机科学教授、Keen Technologies 公司研究科学家及Amii（Alberta Machine Intelligence Institute）研究员。萨顿曾在 2017 年至 2023 年期间担任 DeepMind 的杰出研究科学家。在加入阿尔伯塔大学之前，他于 1998 年至 2002 年在AT&T 香农实验室人工智能部门担任首席技术研究员。萨顿与安德鲁·巴托的合作始于 1978 年，当时他在马萨诸塞大学阿默斯特分校任职，而巴托则是萨顿的博士生导师和博士后导师。萨顿在斯坦福大学获得了心理学学士学位，并在马萨诸塞大学阿默斯特分校获得了计算机与信息科学的硕士学位和博士学位。

Sutton 曾获得国际人工智能联合会议（IJCAI）卓越研究奖、加拿大人工智能协会终身成就奖，以及马萨诸塞大学阿默斯特分校杰出研究成就奖。他是英国皇家学会会士、人工智能促进会（AAAI）会士及加拿大皇家学会会士。

什么是强化学习？

人工智能（AI）领域关注构建智能体，即能感知与行动的实际存在，而更智能的智能体现在其能选择更优的行动方案。因此，“某些行动优于其他”的概念是 AI 的核心。奖励（reward，源于心理学与神经科学的术语）表示提供给智能体与其实际行为质量相关的信号。强化学习（RL）则是通过奖励信号学习更成功行为的过程。

“从奖励中学习”的理念由来已久，可以追溯到千年以来的动物训练，后来，图灵 1950 年的论文《计算机器与智能》（Computing Machinery and Intelligence）提出“机器能思考吗？”的问题，并提出了基于奖励和惩罚的机器学习方法。

尽管图灵报告了一些初步的相关实验，以及亚瑟・塞缪尔（Arthur Samuel）在 20 世纪 50 年代开发了通过自我对弈学习的跳棋程序，但此后数十年，在人工智能这一方向进展甚微。20 世纪 80 年代初，受心理学启发，巴托与博士生萨顿开始将强化学习定义为通用问题框架。

他们借鉴马尔可夫决策过程（MDPs）的数学基础，其中智能体在随机环境中决策，每次状态转移后接收奖励信号，以最大化长期累积奖励为目标。与传统 MDP 理论假设环境完全已知不同，强化学习框架允许环境与奖励是未知的。这种最小化信息需求与 MDP 的通用性结合，使强化学习算法适用于广泛问题。

巴托和萨顿与其他研究人员共同开发了强化学习的许多基本算法。他们的重要贡献之一是——时序差分学习（Temporal Difference Learning），它在解决奖励预测问题方面取得了重要进展；以及策略梯度方法（policy-gradient methods）和将神经网络作为表示已学习功能的工具使用。他们还提出了结合学习和规划的智能体设计，证明了将环境知识作为规划基础的价值。

此外，他们的经典教材《强化学习：导论》（Reinforcement Learning: An Introduction，1998）被引用超 7.5 万次，至今仍是该领域标准参考资料。在这本书的影响下，成千上万的研究者能够理解并参与到这个新兴领域，并继续激发今天计算机科学领域的大量重要创新。

尽管巴托和萨顿的算法诞生于数十年前，但其与深度学习算法的结合（由2018年图灵奖获得者Bengio、Hinton和LeCun开创），从而导致了深度强化学习的出现，在过去 15 年取得多项重大突破。

最突出的例子是 AlphaGo 程序在 2016 年和 2017 年战胜了最优秀的人类围棋选手。最近一项重大成就则是聊天机器人 ChatGPT 的开发。ChatGPT 是一个经过两阶段训练的大型语言模型（LLM），其中第二个阶段采用了一种被称为基于人类反馈的强化学习（RLHF）的技术，以获取人类的期望。

此外，强化学习也在许多其他领域取得成功。一个引人注目的例子是在机器人操作和解决物理（三阶魔方）问题中的运动技能学习，这表明有可能在模拟中进行所有强化学习，最终在截然不同的现实世界中取得成功。其他领域包括网络拥塞控制、芯片设计、互联网广告、全球供应链优化、提升聊天机器人的行为和推理能力，甚至改进计算机科学中最古老的问题之一——矩阵乘法的算法。

最终，一项部分受神经科学启发的技术也予以了回报。包括巴托在内的近期研究显示，人工智能领域开发的特定强化学习算法为有关人类大脑多巴胺系统的大量发现提供了最佳解释。

ACM 主席雅尼斯·约安尼迪斯（Yannis Ioannidis）表示：“巴托和萨顿的研究成果表明，将多学科方法应用于我们领域长期存在的挑战具有巨大潜力。从认知科学、心理学到神经科学等研究领域启发了强化学习的发展，这为人工智能的一些最重要进展奠定了基础，并让我们对大脑的工作原理有了更深入的了解。巴托和萨顿的工作并非我们已经跨越的垫脚石。强化学习仍在不断发展，并为计算及其他众多学科的更进一步提供了巨大潜力。授予他们本领域的最高荣誉，实至名归。”

谷歌高级副总裁杰夫·迪恩（Jeff Dean）指出：“在 1947 年的一次演讲中，艾伦·图灵曾表示‘我们需要的是一台能够从经验中学习的机器’。由巴托和萨顿开创的强化学习直接回应了图灵的这一挑战。他们的工作在过去几十年里一直是人工智能领域取得进展的关键所在。他们开发的工具仍然是人工智能热潮的核心支柱，并促成了重大进步，吸引了大批年轻研究人员，并带来了数十亿美元的投资。强化学习的影响还将持续到未来很长一段时间。谷歌很荣幸赞助图灵奖，并向那些塑造了改善我们生活的技术的人士致敬。”

参考来源

话题：