机器人与人工智能合体：实现想象中的机器人-返朴的财新博客-财新网

人们想象中的机器人是那种在科幻片中出现的，能帮助人类做各种事情，甚至还有情感的机器人。而今天实际的机器人活跃于各种生产生活场景，以机械臂或其他的形态出现，它们用于处理各种专业情况。比如许多家庭已经使用了扫地机器人，即使人们并不会认为这就是真正的“机器人”。为了能让机器人真正的智能化，人工智能技术正在与机器人技术相结合。当然，挑战依旧重重。

撰文 | 赵珊、林泽玲

最近几年，随着人工智能、物联网、无人驾驶、智能交通等新技术的兴起，机器人也逐渐开始以各种形式进入人们的日常生活，各种家用机器人、服务机器人层出不穷。家用扫地机器人因为价格适中而最先走进千家万户。家用扫地机器人具有一定的智能，可以自动在房间内完成吸尘、拖地等清理工作。2022年冬奥会上媒体餐厅由机器人完成的全智能炒菜送菜服务就大出了一次风头。情感机器人是近年出现的新类型，以算法技术赋予机器人以“人类的情感”，使之具有表达、识别和理解喜乐哀怒，模仿、延伸和扩展人的情感的能力，可以陪伴儿童和老人。著名的比如索尼公司的Aibo机器狗，还有软银集团的Pepper机器人。

现代机器人是一个由各种高科技子系统集成的复杂系统，一般包含处理器（Processor）、传感器（Sensor）、控制器（Controller）、执行器（Actuator），以及一般装在机器臂（Arm）末端的各种功能套件（Effector）等几个部分。机器人系统复杂，具有跨学科的技术特性，主要包括软件和硬件两大部分，基本囊括机械、电子、控制、制造加工等技术工程大类。最近机器人技术又延伸到了人工智能领域，变得能更自然地和人类交流，移动更灵活，功能越来越多样化，甚至与生物科技、神经科学等新领域相结合。

在过去的10年里，机器人领域有5项技术入选《麻省理工科技评论》“全球十大突破性技术”。

Rethink Robotics研发的Baxter蓝领机器人（the Blue-Collar Robot），学术上也称为协作机器人，具有安全廉价、极易编程和互动的特点，可以在制造业流水线上和人协同完成任务，是人类的好帮手。它的出现也意味着传统工业机器人技术发展的多个瓶颈被打破。

为保证工作人员安全，早期的协作机器人没有内在的动力来源，一般的动力是由人类工作者提供的。其功能是以与工作人员合作的方式，通过重定向或转向有效载荷来允许计算机控制运动。进化后的协作机器人则提供了有限的动力，而且添加了多个传感器来监控机器人和合作人员的状态，以保证人员的安全。虽然现阶段离实现具有优秀的通用性、人机友好、价格适中等目标还有非常多的挑战，但是协作机器人力图将人与机器人早期的服务关系变为伙伴关系，开启了机器人研究新的一页。这些研究也从一开始单纯的应用功能叠加，逐渐演化到追求工作关系和结构的改变。人和机器人的团队合作，相比人或者机器人单独工作，能大幅提高工作效率。

机器人可以相对较快地在不平坦和不熟悉的地面上行走。图片拍摄者韦布·查普尔（Webb Chappell）

以Baxter为例，协作机器人技术的标志是柔性机械臂，具有摄像头、声呐、力反馈、碰撞检测等多种传感器，使人和机器人互动变得更安全。通过操作人员“手把手”的示范教学，降低了任务编程的门槛，使机器人可以更快、更容易地适应新任务，非常适合中小企业小批量生产和不断缩短的产品生产周期。它们的体积也较小，通常可以放在工作台旁边，帮助从业人员完成高度重复性的工作，如采摘、放置、包装、胶合、焊接等。最后，和传统工业机器人相比，协作机器人的价格也更低廉。

协作机器人代表了机器人技术的最新发展趋势，代表了人和机器人之间关系的进化，由工具变成真正的助手。协作机器人市场最近几年也被极度看好。据国际机器人联合会（IFR）的数据显示，2016年全球工业机器人销量为29.4万台，全球工业机器人保有量为182.8万台。伯克莱资本预测，全球协作机器人市场将从2015的1.16亿美元增长到2025年的115亿美元，主要会被应用在物品挑拣、包装、流水线上的零部件组装、材料整备、操作其他机器等，预计会在中小规模的制造业、医药、电子零部件等领域大规模应用。

协作机器人的市场正处于高速爆发期，10年内市场规模会远远超过上面的估计。这是因为协作机器人不光可以用在工业领域，更大的增长动力还来自非工业领域，或者说商业领域，即使具备实用价值的消费级机械臂短期内还不太现实。在不久的将来，非工业领域的销量就会获得巨大增长。

物流仓储和医疗是目前研究和产品化比较多的两个领域。在仓储物流领域中的拣货环节，目前主要有两种方案。一个是“货到人”，以亚马逊的Kiva机器人、英国Ocado的智能仓库技术为代表；另一个是使用移动机器人加上机械臂来代替工人完成固定货架的分拣，这也是亚马逊的机器人分拣挑战大赛（Amazon Picking Challenge）的主要内容，已经有团队使用了FANUC的LRMate200系列轻型机器人搭配3D视觉系统来做货架分拣。电商和智能物流仓储都是非常有潜力的市场。再一个是医疗康复机器人、义肢机器人，由于协作机器人比较安全，加上机械臂可以模仿人类手臂的灵活特性，它非常适合用在这些场合。此外，诸如机器人做菜、做导游、做餐饮服务员等，都是很有潜力的应用方向，为我们提供了更多让机器人走入普通人生活的可能性。

但协作机器人技术发展的过程中也遇到了问题——不同硬件需要独立编程，研发耗时耗力导致造价偏高。工业机器人主要被应用于制造和生产，在流水线上各司其职，在特定工位可以准确完成任务。依照这种模式的机器人研发，必须为不同机器人开发独立的硬件，搭配相对的控制软件以给出具体和精确的指令，才能完成特定的任务。举个例子，一个末端具有多关节的多自由度的仿人手机器人拿起一个杯子，和一个末端只有两根“手指”的钳子机械臂拿起同一个杯子的具体的实现方式，肯定是非常不同的。

如果能让不同的机器人共享各自学到的技能，可以极大地减少重复的开发工作，快速推动机器人的应用进程。机器人之间知识分享的新技术就是为了解决这个问题而取得的重大技术突破之一，其能使不同的技巧或技能更快地在机器人之间普及。

自从机器人间技能共享的技术提出以来，这个技术就一直是机器人技术的热点，产生了很多延伸技术，和人工智能等领域也有很多新的融合发展。2016年，谢尔盖·莱文（Sergey Levine）被《麻省理工科技评论》评为“35岁以下科技创新35人”之一，他辞去大学教职后加入谷歌继续研究，并在同年发表论文“通过大规模数据收集和深度学习，掌握机器人的手眼协调技能”（Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection）。

谢尔盖·莱文发现，通过在很长一段时间内运用6个机器手各自练习抓取不同的物品，并共享抓取过程中控制手眼协调的神经网络的各个参数，最大限度地增大训练数据库的规模，提升了训练和调试神经网络的效率。这项延伸技术的亮点是深度学习的人工智能和机器人硬件控制的结合，这会是未来一段时间内机器人技术领域非常有潜力的热点技术。

2017年5月，麻省理工学院计算机科学和人工智能实验室的朱莉·沙阿（Julie Shah）教授发布了CLEARN技术。这个新技术结合了传统的机器人示范教学和运动规划编程技术，通过给机器人提供如何抓取一系列典型物体的基础数据信息，然后只通过一次示范教学，就能让机器人自动学习到抓取一系列不同物品的技能。更重要的是，这些技能还能自动转化为其他机器人的技能，其他机器人并不要求和原来的机器人有着同样的移动方式和机械结构。

要使用CLEARN技术，用户首先要向机器人提供有关如何抓取具有不同约束条件的各种物体的信息知识库。例如，轮胎和方向盘具有相似的形状，但要将它们连接到汽车上，机器人必须以不同的方式配置它的机械臂和末端的工具套件才可以更好地移动它们。然后，操作员使用3D接口向机器人进行完成特定任务的演示，该演示包含一系列被称为“关键帧”的相关时刻。通过将这些关键帧与知识库中的不同情况进行匹配，机器人可以自动提供运动路线计划，以供操作人员视需求进行编辑。通过这个技术，Optimus双机械臂军用拆弹机器人成功将学到的技能，包括开门、移动物品等，教会给另一个6英尺（约合1.8m）高、400磅（约合181.4kg）重的人形机器人Atlas。

CLEARN技术有效地解决了传统机器人示范教学效率较低、耗时长，需要独立开发编程的问题，使人能更方便快捷地教会机器人新的技能。可以想象，当这类能让机器人更快速地学到新技能的技术被应用于上文提到的协作机器人时，机器人的功能必将快速增加，迅速适应更多的任务，被应用到更多的领域。

在液压动力和多个传感器的加持下，波士顿动力公司的大狗（Bigdog）机器人可以在困难的地面上保持稳定，图片来源于波士顿动力。

现在市面上占重要地位的协作机器人都没有人的外形，更像机器臂，主要目的是减轻人工作的负担，在严苛的环境条件下能进行重复工作。以人类自身为原型参照的仿人全身机器人是机器人研究中的尖端领域，也是机器人技术及人工智能的重大目标。可以用脚行走的聪敏机器人（Agile Robots）代表了机器人移动技术的重大突破，使得机器人终于摆脱了地形环境的限制，可以去到人能去到的地方。

这一技术的领导者是波士顿动力（Boston Dynamics）。波士顿动力研发出的双足和四足机器人具有出色的平衡性和灵巧性，可以在崎岖不平的复杂地面行走，可以去到世界上大部分轮式机器人去不了地方。要实现行走这一目标，机器人的每一步都需要动态平衡，需要对瞬间的不稳定性有极强的适应能力。这包括需要快速调整脚的着地点，计算出突然转向需要施加多大的力，更重要的是还要在极短的时间内向足部实施非常大而又精准的力，控制好机器人的整体姿态，在控制理论、系统集成和工程实现等多个维度都需要极高的“黑科技”。

波士顿动力公司的大狗机器人在行走，图片来源于波士顿动力。

波士顿动力研究的最新版本Atlas，可以用于户外和建筑物内部，是专门为移动应用设计的。它采用电源供电和液压驱动，使用身体和腿部的传感器来平衡头部的激光雷达和立体声传感器，以避免障碍物，评估地形，帮助导航和操作物体。在2021年波士顿动力发布的最新视频里，Atlas比过去更加小巧灵活，身高1.75m，体重减到82kg。Atlas展示了惊人的“跑酷”能力，可以在狭窄的平衡木上快跑，在障碍物上跳跃，并且还能从高处翻跟斗。能有这些出色的表现得益于波士顿动力世界领先的控制理论、系统设计和工程能力。Atlas和其他公司的机器人一个重要的区别在于使用了液压系统进行动作控制，这样可以保证瞬时更大的控制动力输出和更精确的力传递。Atlas机器人还得益于“仿生”的整体集成结构（Integrated Structure）设计概念。仿生机器人，就像真人一样，不仅有像骨骼和关节一样的支撑结构和油缸，也有像血管和神经一样的油路和电路。

最引人注目的是，除了灵巧性，Atlas比在2016年最初发布时，更像一个“人”了。在过去的演示中，它基本上是盲目的—需要环境固定，它才能做出成功的动作。但现在的视频里，它确实更多地依靠自己的感知来导航，根据它所看到的情景调整自己的动作。这意味着它比以前更少依赖预先设置的编程，而工程师不必为机器人可能遇到的所有情况都预先编程跳跃动作。

以前机器人普及的另一问题在于其灵活性很低。虽然机器人在受控环境中表现出色，但在不受控制的环境中就不行了。例如，机器人能轻松地在工厂和仓库中执行人类无法轻易做到的操作，比如准确切割器材到毫分级尺寸，但不能在没有受过大量训练之前像人类那样简单地打开一扇门。但正如Atlas所展示的一样，机器人灵活性在人工智能的辅助下取得巨大进步。机器人科学家用来提高机器人灵活性的关键技术之一正是强化学习。强化学习让机器人随着时间的推移学习使用不同的技术处理物体并选择最好的技术。然后，机器人可用于在任何条件下执行所有可能的任务，并提高其灵活性。

提高机器人技术的灵活性后，机器人的用途将更为广泛，在与军事、废物处理、物流和交付、运输等相关的任务中都发挥重要的作用。相信用不了多久，科幻电影中的机器人将从大银幕走向现实生活。

学术点评

智能机器人，重构未来生产力

撰文丨许华哲（清华大学交叉信息研究院助理教授）

无论是一个人形机器人拿着托盘把一杯咖啡礼貌地递给你，又或者是一个钢铁巨兽眼里闪着光芒企图毁灭人类，对于机器人，人类总是有着无穷的想象。“机器人”是一个古老而又新颖的词语：早在1921年，捷克剧作家便把剧本里流水线上的机械人类叫作“机器人”（Robot）；早在1941年，“机器人学”（Robotics）这个词就在科幻作家阿西莫夫发表的小说《环舞》（Runaround）中被首次提及。从科幻走向科学，机器人学走过了漫长的发展历程。如今，科学家逐渐让这些“铁家伙”用“手臂”操作物体、像狗一样“跑步”，甚至像人一样“双足行走”。在2022年这个人工智能逐渐成熟的时间段，机器人学研究和相关产业也开始焕发新的生机。

人工智能，尤其是其中的深度学习技术，对很多人来说已经不是什么新鲜事：手机里的人脸支付、自拍里的滤镜、网络广告的推荐系统都依赖深度学习，即从数据中学习模式，甚至生成数据。从人工智能科学家的研究视角来看，如今已经有了摄像头作为“眼睛”，语音处理技术作为“嘴巴”，那么下一步很自然地就是如何把智能的“手”和“脚”装上去。对于机器人学的研究者来说，如何给那些已经能完成跑跳控制的电子机械装置装上“大脑”，也成为最近的工作热点。

因此，人工智能和机器人的融合成为必然的趋势：人工智能机器人不仅可以像传统机器人一样完成指定的动作，同时结合了感知和环境中的变化，通过模型进行泛化，从而达到通用目的。这样的“强强联合”，孕育着最富有未来感的想象空间：机器人在非结构化的空间—人类真实生活的空间，可以只依赖传感器信息，完成一系列复杂的任务。例如你能想象在过春节的时候，一桌子年夜饭全是由一个机器人为你制作的吗？

当然，现在的人工智能机器人离我们想象中的那些有着相当智慧水平的硅基生物仍然有不小的距离。纵使如此，人类对更智能、更强大的机器人的追求从来没有停下来。2019年，“灵巧机器人”（Robot Dexterity）入选《麻省理工科技评论》“全球十大突破性技术”，相关论文中提及当年轰动一时的机器人研究——“机器人灵巧手Dactyl”项目。OpenAI公司的研究员们利用深度强化学习，让机器手在大量随机化的模拟器仿真数据中自主学习拧魔方的策略，并将该策略应用在真实的机械灵巧手上。该项目之所以影响力大，一是因为“强化学习”让机器人在没有明确人类指令的情况下学会了如何完成任务，这是更高级智能的一个指标；二是因为实现了从仿真环境到真实机器手的迁移，让我们看到了从完善仿真、改善算法，到现实部署这样一个清晰可行的路径。

无独有偶，来自苏黎世联邦理工学院和英特尔公司的机器人专家们，以类似的方式，让机械狗通过深度强化学习在仿真环境里进行了大量的训练。训练所获取的策略，最终用在了ANYmal机械狗上，从而使机械狗可以在多样、复杂，甚至从未遇到过的地面上行走。而此前，这一问题往往需要机器人科学家和工程师们针对不同地形进行大量人工的优化和整合。能够获得此次举世瞩目的结果，主要原因是在仿真环境中人工智能机器人早已见过多种多样更复杂、更崎岖的路面，所以应用到现实时便可以得心应手。

机器人与人工智能的结合，当然远远不止上述两例。谷歌的科学家让机器人（TossingBot）通过高速移动手臂完成物体的抛掷；加州大学圣地亚哥分校的研究者尝试让机器人（DexMV）可以从视频中学习人手的动作；斯坦福大学和麻省理工学院的研究者（即笔者所在的团队）试图让机器人（RoboCraft）可以操作柔性物体，甚至包饺子。如今的人工智能算法帮助机器人完成了一个又一个之前只有人类才能完成的多步骤、非规则的任务，机器人再也不单单是流水线上只会做单一指定动作的机械臂了，这不仅模糊了人工智能和机器人的边界，同时进一步解放了生产力，将人类从高危、重复的劳动中解脱出来。

当然，为了创造出有足够智能的机器人，目前仍然存在着十足的挑战。在算法层面，以深度学习为基础的一系列技术，都需要依靠神经网络的拟合能力，而稍有神经网络经验的研究者和创造者都曾经历过神经网络的“不靠谱”：神经网络极难达到100%的精确度。在智能解锁等应用场景中，如果神经网络“犯错”，可能只是造成了用户无法解锁手机，需要多次尝试的情况，但在机器人应用中，却极有可能威胁到人们的生命财产安全。与此同时，如何让机器人应对没见过的极端个例也是非常困难的，因为如果机器人在训练数据集或模拟器里没有经历过此类场景，在真实的世界里往往就会做出错误的判断。在硬件层面，高精度、大载荷的机器人往往是昂贵的、脆弱的，如何有效降低机器人硬件成本并使其走入千家万户，也是广大机器人研究者和创业者面临的重要课题。

另外，伴随着人工智能机器人的发展，机器人伦理学也逐步进入人们的视野。早在阿西莫夫的科幻小说中就提出了“机器人三定律”：“第一，机器人不得伤害人类，或者不得置人类于危难中；第二，机器人必须服从人类命令，除非与第一定律矛盾；第三，机器人可以在不与第一、第二定律冲突的情况下维护自身存在。”我们可以感知到，人们对于机器人总是有着各种各样的担心。虽然现在离机器人的“觉醒”时刻尚远，但人们仍然应该思考许多伦理问题。例如，当机器人和人类对话时，是否会因为一些固有印象而使用错误的人称代词？大量的机器人是否会抢占一部分人类的工作岗位？每一次技术的爆发，都会伴随着相应的社会问题、伦理问题，这也是我们在技术与人类生活融合的道路上必须要思考和解决的。

我们可以获得什么样的技术？我们可以创造出怎样的机器人？拥有了这些机器人后人类的生活有怎样的变化？人类正在靠着自己的好奇心探索着未知的疆界，并一步一步地追寻着想象中的未来。在中国，我们已经见到家里的扫地机器人、餐馆里的服务机器人、遍地开花的自动驾驶（也可以看作交通轮式机器人）、工厂里的通用机械臂，在可以预期的未来里，这些机器人将会配备上更聪明的“大脑”、更合适的“身体”，完成更困难的任务。在人类的研究和合理约束下，机器人将会让人们的生活更加轻松惬意！

本文经授权摘自《科技之巅：全球突破性技术创新与未来趋势》（人民邮电出版社，2023年1月）

话题：