叶杰平：主流强化学习过分简化假设，与真实场景差距较大-爱代码爱编程

2021-05-13 分类: 游戏算法人工智能深度学习机器学习

智源导读：决策智能是国家新一代人工智能的重要发展方向，强化学习是实现决策智能的核心技术之一。在强化学习中，智能体与环境进行不断的交互，基于环境的反馈学习如何选择一系列动作，以使长期累积的奖励和最大。

近年来，该方向已经取得了一系列瞩目的进展，比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。

对此，贝壳找房副总裁、首席科学家，智源研究员叶杰平从问题建模、算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。

叶杰平，贝壳找房副总裁、首席科学家，智源研究员，密西根大学教授，IEEE Fellow、ACM杰出科学家。叶杰平博士主要从事机器学习、数据挖掘和大数据分析领域的研究，致力于推进人工智能技术在出行、居住和医疗等领域的应用。他曾获得KDD和ICML最佳论文奖，荣获2010年美国国家自然科学基金会生涯奖、2017年中国计算机学会“CCF科学技术奖科技进步卓越奖”、2019年度国际运筹学领域顶级实践奖--瓦格纳运筹学杰出实践奖（Daniel H. Wagner Prize）。

叶杰平博士是2021智源大会强化学习与决策智能论坛的主席。本专题论坛将邀请国防科技大学智能科学技术系主任徐昕、美国密西根大学教授应雷、美国西北大学助理教授汪昭然、华为诺亚方舟决策推理实验室主任郝建业、滴滴AI Labs首席研究员秦志伟等知名嘉宾共同探讨相关领域面临的机遇和挑战。

2021智源大会群英荟萃，已确认出席嘉宾包括图灵奖得主Yoshua Bengio、David Patterson，Peter Dayan以及人工智能各领域多位世界级的专家。本届大会采用线上+线下模式，30+分论坛，线上报名已开启，详情参见官网https://2021.baai.ac.cn/（详细议程持续更新中）。

人工智能领域不容错过的内行分享，等你一同见证！

作为一种新兴技术，当前强化学习与决策智能仍面临大量挑战。接下来我们将从问题建模和算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。

问题建模

当前挑战：强化学习的奖励设计（描述学习目标）与状态定义（描述输入信号）不仅严重依赖于专家经验，且往往需要消耗大量人力反复调整建模方式。

首先，奖励函数的设计极具挑战性。奖励函数是描述智能体目标的特殊信号，对决策算法习得的策略有决定性的影响。以超级马里奥游戏为例，直接以“过关”作为奖励，则引导智能体学习的奖励信号会过于稀疏（一关仅一个奖励信号），进而导致算法的学习效率极低，甚至无法学到过关的策略。而综合考虑其他因素，如存活时间、击杀怪物得分，收集金币的数量等，需要进行大量的试错来平衡不同因素在奖励函数中的权重，以避免智能体出现无意义刷分的行为。

超级马里奥

其次，状态空间的定义仍需领域专家耗费大量精力进行多次尝试。真实环境中的输入信息存在多模态，高维度的特点，需要针对特定任务选择相应的信息和特征提取方法以定义策略学习所需的状态。

如在自动驾驶任务中，汽车的输入信号可以来自于摄像头、激光雷达、油量传感器、速度传感器、GPS信号等多种传感器。此外，行驶、停车入库，路线导航等不同的决策场景需要的信息存在差异。此时，为自动驾驶任务定义状态空间需要领域专家反复权衡不同决策场景的重要性、传感器成本、信息处理难度和策略学习难度等多种因素。

前沿进展：

1. 近年来，学界提出使用内在奖励（intrinsic reward）降低奖励函数设计时的人工成本。

内在奖励启发自心理学中的内在动机（intrinsic motivation）。举例来说，婴儿仅受内在好奇心的驱动便会积极探索房间的各个区域，无需父母给出特定形式的外部奖励。类似地，我们可以在决策算法中引入类似于“好奇心”的内在驱动力。此时，我们只需设计简单的稀疏奖励，便能引导智能体学习到有意义的策略。OpenAI 提出随机网络蒸馏，鼓励智能体探索具有较高不确定的状态。该方法是首个不依赖人类经验，在《蒙特祖玛的复仇》（雅达利游戏中最困难的稀疏奖励任务之一）中超过人类玩家平均水平的智能算法。

《蒙特祖玛的复仇》中的强化学习实践

2. 为降低设计状态空间的成本，研究者尝试融合表示学习与强化学习，自动地从原始输入中提取低维的状态特征。

具体地，可以选择廉价的传感器（如摄像头）获取原始输入，然后通过表示学习方法将高维的原始输入映射为低维的向量表示，同时保留原始状态中任务相关的语义信息。在机器人的仿真控制中，融合表示学习技术的决策算法可以在仅使用图像输入的情况下达到与使用多个不同传感器（获取关节速度与角度信息）时相当的性能。此外，针对视频游戏任务，David Ha与Juergen Schmidhube提出世界模型（World Models）。该方法以游戏图像作为输入，结合了自监督学习、循环神经网络等多项表示学习技术来提升智能体对环境的理解。

图灵奖得主Yann LeCun评价该方向是弥补强化学习不足与通向下一代人工智能的关键点。韩国科学技术院使用图神经网络学习能源网络的低维表示，进而使用强化学习方法学习能源网络的控制策略，获得了WCCI 2020电网调度大赛的冠军。

算法设计

当前挑战：主流的强化学习算法在设计时往往对环境和智能体进行了过分简化的假设，与真实场景下的落地应用仍有较大的距离。

其一，现有算法常常假设智能体可以获知全部环境信息（即完全可观测），但在国防安全、智能制造等落地场景中，智能体往往只能获取决策所需信息的一部分（即部分可观测）。

其二，现有算法主要考虑单一智能体或较小规模的多智能体系统。但是在物流调度、电网控制等重要决策任务中，存在庞大数量的智能体。值得一提的是，共享车辆调度任务作为强化学习方向最有潜力的落地场景之一（预计市场规模在2025年达到2180亿美元），需要同时考虑部分可观测性与庞大数量的智能体集群，对算法设计提出了更高的要求。

前沿进展：得益于大规模强化学习训练技术的发展，近年来在上述复杂场景下的强化学习算法已经取得了一系列令人瞩目的成就。

例如，在棋牌对弈领域，以AlphaZero、MuZero为代表的棋类游戏算法将深度强化学习与蒙特卡洛树搜索、自博弈等技术结合，战胜了围棋领域的人类世界冠军，实现了强化学习在双人博弈问题上的落地应用；在竞技游戏领域，AlphaStar在游戏《星际争霸》中克服了状态观测不完全、实时决策、稀疏奖励等诸多难点，OpenAI Five在游戏《Dota 2》中实现了多智能体场景下的协作和竞争，这些游戏算法应用大规模强化学习训练技术，达到了匹敌人类顶级职业选手的表现。针对共享车辆调度任务，滴滴提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单方法，在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在线的AB实验证明，这种基于深度强化学习的派单算法能够显著提升平台各项效率及用户体验。

更多相关内容敬请关注智源大会强化学习与决策智能论坛

扫码加入「强化学习」论坛交流群，参与相关话题讨论

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/116773724

叶杰平：主流强化学习过分简化假设，与真实场景差距较大-爱代码爱编程

苗旺：因果推断，观察性研究和 2021 年诺贝尔经济学奖-爱代码爱编程

《强化学习周刊》第30期：Deep Mind开展人机交互的新试点研究、MIT提出神经进化优化框架...-爱代码爱编程

《预训练周刊》第31期：OpenAI发表可定制版GPT3、谷歌提出精简自注意力算法-爱代码爱编程

2021 AI技术盘点：预训练模型5大进展-爱代码爱编程

2021最大看点AI for Science，在哪些领域有斩获？-爱代码爱编程

《强化学习周刊》第31期：康奈尔大学推出基于强化学习的数据库调优工具DB-BERT...-爱代码爱编程

清华丁霄汉：从RepVGG系列谈起，结构重参数化如何暴力提升性能-爱代码爱编程

新国立尤洋：夸父AI——用于大规模并行训练的统一深度学习系统-爱代码爱编程

《因果学习周刊》第8期：因果反事实预测-爱代码爱编程

智源社区票选2021 AI十大进展出炉！-爱代码爱编程

2021年智源人工智能前沿报告（AI Frontiers Report）发布【附下载链接】-爱代码爱编程

《预训练周刊》第33期：艾伦AI研究所等 | 预训练语言模型的高效分层域适应-爱代码爱编程

Yann LeCun：发现智能原理是AI的终极问题 | 独家对话-爱代码爱编程

直播|深大周池：跨数据中心的高效大图处理问题研究-爱代码爱编程

解读2021年智源 ai 前沿报告：医疗领域最新进展_智源社区的博客-爱代码爱编程

你就是你自己paper最好的审稿人：宾大苏炜杰提出peer review新机制_智源社区的博客-爱代码爱编程

《因果学习周刊》第9期：因果学习中的工具变量_智源社区的博客-爱代码爱编程

《强化学习周刊》第32期：上海交大&华为 | 可解释强化学习研究综述_智源社区的博客-爱代码爱编程

robotaxi里程竞赛开启，激光雷达成新热点 | 2021年自动驾驶趋势解读-爱代码爱编程

刘偲：ai+艺术 | 青源 talk 第 11 期_智源社区的博客-爱代码爱编程