代码编织梦想

d6b8e807dd8a59302eb34df6d0e250a3.png

智源导读:决策智能是国家新一代人工智能的重要发展方向,强化学习是实现决策智能的核心技术之一。在强化学习中,智能体与环境进行不断的交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励和最大。

近年来,该方向已经取得了一系列瞩目的进展,比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。

对此,贝壳找房副总裁、首席科学家,智源研究员叶杰平从问题建模、算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。

叶杰平,贝壳找房副总裁、首席科学家,智源研究员,密西根大学教授,IEEE Fellow、ACM杰出科学家。叶杰平博士主要从事机器学习、数据挖掘和大数据分析领域的研究,致力于推进人工智能技术在出行、居住和医疗等领域的应用。他曾获得KDD和ICML最佳论文奖,荣获2010年美国国家自然科学基金会生涯奖、2017年中国计算机学会“CCF科学技术奖科技进步卓越奖”、2019年度国际运筹学领域顶级实践奖--瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize)。

叶杰平博士是2021智源大会强化学习与决策智能论坛的主席。本专题论坛将邀请国防科技大学智能科学技术系主任徐昕、美国密西根大学教授应雷、美国西北大学助理教授汪昭然、华为诺亚方舟决策推理实验室主任郝建业、滴滴AI Labs首席研究员秦志伟等知名嘉宾共同探讨相关领域面临的机遇和挑战。


2021智源大会群英荟萃,已确认出席嘉宾包括图灵奖得主Yoshua Bengio、David Patterson,Peter Dayan以及人工智能各领域多位世界级的专家。本届大会采用线上+线下模式,30+分论坛,线上报名已开启,详情参见官网https://2021.baai.ac.cn/(详细议程持续更新中)。

人工智能领域不容错过的内行分享,等你一同见证!


作为一种新兴技术,当前强化学习与决策智能仍面临大量挑战。接下来我们将从问题建模和算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。

01

问题建模

当前挑战:强化学习的奖励设计(描述学习目标)与状态定义(描述输入信号)不仅严重依赖于专家经验,且往往需要消耗大量人力反复调整建模方式。

首先,奖励函数的设计极具挑战性。奖励函数是描述智能体目标的特殊信号,对决策算法习得的策略有决定性的影响。以超级马里奥游戏为例,直接以“过关”作为奖励,则引导智能体学习的奖励信号会过于稀疏(一关仅一个奖励信号),进而导致算法的学习效率极低,甚至无法学到过关的策略。而综合考虑其他因素,如存活时间、击杀怪物得分,收集金币的数量等,需要进行大量的试错来平衡不同因素在奖励函数中的权重,以避免智能体出现无意义刷分的行为。

190406c7a69c776ec68d7738ce1f8513.gif

超级马里奥

其次,状态空间的定义仍需领域专家耗费大量精力进行多次尝试。真实环境中的输入信息存在多模态,高维度的特点,需要针对特定任务选择相应的信息和特征提取方法以定义策略学习所需的状态。

如在自动驾驶任务中,汽车的输入信号可以来自于摄像头、激光雷达、油量传感器、速度传感器、GPS信号等多种传感器。此外,行驶、停车入库,路线导航等不同的决策场景需要的信息存在差异。此时,为自动驾驶任务定义状态空间需要领域专家反复权衡不同决策场景的重要性、传感器成本、信息处理难度和策略学习难度等多种因素。

前沿进展:

1. 近年来,学界提出使用内在奖励(intrinsic reward)降低奖励函数设计时的人工成本。

内在奖励启发自心理学中的内在动机(intrinsic motivation)。举例来说,婴儿仅受内在好奇心的驱动便会积极探索房间的各个区域,无需父母给出特定形式的外部奖励。类似地,我们可以在决策算法中引入类似于“好奇心”的内在驱动力。此时,我们只需设计简单的稀疏奖励,便能引导智能体学习到有意义的策略。OpenAI 提出随机网络蒸馏,鼓励智能体探索具有较高不确定的状态。该方法是首个不依赖人类经验,在《蒙特祖玛的复仇》(雅达利游戏中最困难的稀疏奖励任务之一)中超过人类玩家平均水平的智能算法。

9d1cb89e6963c449e542653e991bbd15.gif

《蒙特祖玛的复仇》中的强化学习实践

2. 为降低设计状态空间的成本,研究者尝试融合表示学习与强化学习,自动地从原始输入中提取低维的状态特征。

具体地,可以选择廉价的传感器(如摄像头)获取原始输入,然后通过表示学习方法将高维的原始输入映射为低维的向量表示,同时保留原始状态中任务相关的语义信息。在机器人的仿真控制中,融合表示学习技术的决策算法可以在仅使用图像输入的情况下达到与使用多个不同传感器(获取关节速度与角度信息)时相当的性能。此外,针对视频游戏任务,David Ha与Juergen Schmidhube提出世界模型(World Models) 。该方法以游戏图像作为输入,结合了自监督学习、循环神经网络等多项表示学习技术来提升智能体对环境的理解。

图灵奖得主Yann LeCun评价该方向是弥补强化学习不足与通向下一代人工智能的关键点。韩国科学技术院使用图神经网络学习能源网络的低维表示,进而使用强化学习方法学习能源网络的控制策略,获得了WCCI 2020电网调度大赛的冠军。

 

02

算法设计

当前挑战:主流的强化学习算法在设计时往往对环境和智能体进行了过分简化的假设,与真实场景下的落地应用仍有较大的距离。

其一,现有算法常常假设智能体可以获知全部环境信息(即完全可观测),但在国防安全、智能制造等落地场景中,智能体往往只能获取决策所需信息的一部分(即部分可观测)。

其二,现有算法主要考虑单一智能体或较小规模的多智能体系统。但是在物流调度、电网控制等重要决策任务中,存在庞大数量的智能体。值得一提的是,共享车辆调度任务作为强化学习方向最有潜力的落地场景之一(预计市场规模在2025年达到2180亿美元),需要同时考虑部分可观测性与庞大数量的智能体集群,对算法设计提出了更高的要求。

 

前沿进展:得益于大规模强化学习训练技术的发展,近年来在上述复杂场景下的强化学习算法已经取得了一系列令人瞩目的成就。

例如,在棋牌对弈领域,以AlphaZero、MuZero为代表的棋类游戏算法将深度强化学习与蒙特卡洛树搜索、自博弈等技术结合,战胜了围棋领域的人类世界冠军,实现了强化学习在双人博弈问题上的落地应用;在竞技游戏领域,AlphaStar在游戏《星际争霸》中克服了状态观测不完全、实时决策、稀疏奖励等诸多难点,OpenAI Five在游戏《Dota 2》中实现了多智能体场景下的协作和竞争,这些游戏算法应用大规模强化学习训练技术,达到了匹敌人类顶级职业选手的表现。针对共享车辆调度任务,滴滴提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单方法,在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在线的AB实验证明,这种基于深度强化学习的派单算法能够显著提升平台各项效率及用户体验。

51a08a38e8d0a22825e4bfa0ee693823.png


更多相关内容敬请关注智源大会强化学习与决策智能论坛

ed7870f885def2e76acd1569f848432c.png

扫码加入「强化学习」论坛交流群,参与相关话题讨论

                                                

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/BAAIBeijing/article/details/116773724

苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖-爱代码爱编程

【专栏:前沿进展】因果推断是当下人工智能、机器学习领域中的热门话题之一。在 11 月 26 日的青源 Talk 中,北京大学助理教授、青源会会员苗旺分享了题为「因果推断,观察性研究和 2021 年诺贝尔经济学奖」的报告。在本次报告中,苗旺老师首先介绍了 1989、2000、2021 三次诺贝尔经济学奖的背景,这三次诺奖得主的工作都与因果推理有着密切的

《强化学习周刊》第30期:Deep Mind开展人机交互的新试点研究、MIT提出神经进化优化框架...-爱代码爱编程

No.30 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第30期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。 周

《预训练周刊》第31期:OpenAI发表可定制版GPT3、谷歌提出精简自注意力算法-爱代码爱编程

No.31 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了12篇预训练相关的论文,涉及模型规模、表情符号生成、零样本图像生成、自注意力、语言模型、视频理解、多模态、对比学习、分子表征、抗体预测、蛋白作用预测和多模态测评的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍大模型

2021 AI技术盘点:预训练模型5大进展-爱代码爱编程

【专栏:前沿进展】2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展。其中,预训练模型无疑是2021年的重点发展领域。年初的Switch Transformer开启万亿参数模型的研发热潮,DALL·E和CLIP的问世推动多模态预训练的发展,“悟道”系列模型成为国内首个突破万亿参数模型等等——层出不穷的预训练模型涌现,催生

2021最大看点AI for Science,在哪些领域有斩获?-爱代码爱编程

【专栏:前沿进展】AI for Science是今年一大重点发展的新兴领域。中科院院士,北京大学教授鄂维南在2021年智源大会上表示:“传统的科研领域如化学、材料、电子工程、化学工程、机械工程等等,应该成为人工智能的主战场,或许不仅仅是主战场,很可能是未来十年最大的主战场。”AI for Science也被阿里达摩院评为2022年十大科技趋势之一。

《强化学习周刊》第31期:康奈尔大学推出基于强化学习的数据库调优工具DB-BERT...-爱代码爱编程

No.31 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第31期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及新工具,以飨诸位。

清华丁霄汉:从RepVGG系列谈起,结构重参数化如何暴力提升性能-爱代码爱编程

【专栏:前沿进展】“结构重参数化”是清华大学丁霄汉博士近年来提出的一种通用深度学习模型设计方法论。在青源 Live 第 34 期中,丁霄汉博士分享了题为「结构重参数化与通用视觉模型的基本设计元素」的报告,介绍了结构重参数化的起源和发展,以及他基于这一思想在改进单分支模型性能、设计卷积模型组件、模型剪枝等方向的相关研究工作。 本文整理自青源 LI

新国立尤洋:夸父AI——用于大规模并行训练的统一深度学习系统-爱代码爱编程

【专栏:前沿进展】自十年前AlexNet等模型在计算机视觉领域大放异彩,深度学习算法逐渐流行起来。近年来,BERT等大模型深受大公司喜爱,自2018年至今,最顶尖的大模型的规模越来越大,如GPT-3有1750亿参数,2021年的Switch Transformer达到了1.6万亿参数,智源“悟道”模型更是达到了1.75万亿参数。由此,OpenAI做出

《因果学习周刊》第8期:因果反事实预测-爱代码爱编程

No.08 智源社区 因果学习组 因 果 学  习 研究 观点 资源 活动 关于周刊 因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第8期《因果学习周刊》。 反事实推断问题(Counterfactual Predicti

智源社区票选2021 AI十大进展出炉!-爱代码爱编程

2021年11月,智源社区举办AI大调查,面向社区成员及广大AI领域的研究者和从业者,收集反馈意见和建议。目前已收到回复9000多份,根据智源社区2021AI大调查票选结果,我们选出了2021年人工智能领域十大技术进展事件,如下: 1.David Card、Joshua D.Angrist和Guido W.Imbens三人因对经济学研究的实证研

2021年智源人工智能前沿报告(AI Frontiers Report)发布【附下载链接】-爱代码爱编程

导读:2021年对于人工智能技术和产业,依旧是不平凡的一年。随着算力、数据、算法等要素逐渐齐备,先进的算法结构不断涌现,各个研究方向研究成果层出不穷,成熟的AI技术逐渐向代码库、平台和系统发展,实现产业和商业层面的落地应用,推动人工智能发展迈向新阶段。 在新的一年即将到来之际,智源研究院采用案例征集、专家咨询等方法,向高校和科研机构专家学者征集20

《预训练周刊》第33期:艾伦AI研究所等 | 预训练语言模型的高效分层域适应-爱代码爱编程

No.33 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了9篇预训练相关的论文,涉及词汇迁移、常识问答、多模态训练、层次训练、对比学习、图像分割、图文模型、蛋白质作用和免疫特征表示的探索。此外,在研究动态方面,我们选择了2篇预训练资讯,将介绍大模型竞争和视觉算法年度回顾方面的一些最新内

Yann LeCun:发现智能原理是AI的终极问题 | 独家对话-爱代码爱编程

导读:在《科学之路:人,机器与未来》一书中,图灵奖得主,卷积网络之父杨立昆(Yann LeCun)提出,在科学史上,技术产品的出现往往先于解释其工作的理论和科学。发现智能工作的潜在机制和原理,是他未来几十年的研究规划。 新书分享会上,北京智源人工智能研究院院长黄铁军、清华大学计算机系副教授刘知远、知名科学科普博主袁岚峰三位人士,就AI是技术还是科学

直播|深大周池:跨数据中心的高效大图处理问题研究-爱代码爱编程

本期为青源LIVE第38期线上直播活动,参与直播互动有惊喜🎁! 图计算模型被广泛用于数据分析研究领域,以期从大规模图结构数据中提取有用信息。近期,我们发现许多大数据处理应用需要分析大量以地理分布方式生成的数据。例如,社交网络用户的地理分布性很广,我们往往需要分析在多个数据中心快速生成的海量数据,从而向用户提供可靠和低延迟的服务(如基于用户兴

解读2021年智源 ai 前沿报告:医疗领域最新进展_智源社区的博客-爱代码爱编程

导读:2021年对于人工智能技术和产业,依旧是不平凡的一年。而在智能医疗赛道上,更是持续火热,各大医疗AI企业纷纷冲刺IPO。政策方面,国家开始逐步发放各类医疗影像AI软件三类证。而与此同时,数字疗法、手术机器人等新兴领域也逐渐博得了更多关注。精准医疗也被阿里达摩院评为2022年十大科技趋势之一。本文截取医疗健康部分的应用案例,全文请见2021-20

你就是你自己paper最好的审稿人:宾大苏炜杰提出peer review新机制_智源社区的博客-爱代码爱编程

【专栏:前沿进展】近年来,机器学习顶会论文数目井喷,审稿压力巨大,其同行评审制度备受质疑。宾大教授针对此挑战提出了由论文作者协助的新型同行评审机制。 你是否已经受够了NeurIPS,ICLR,ICML, CVPR, AAAI等会议的审稿意见?你是否有过最好的论文被拒稿,但是相对差的论文反而被接收的经历?相信对众多机器学习、人工智能领域的从业者来说

《因果学习周刊》第9期:因果学习中的工具变量_智源社区的博客-爱代码爱编程

No.09 智源社区 因果学习组 因 果 学  习 研究 观点 资源 活动 关于周刊 因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第9期《因果学习周刊》。 在因果学习中的反事实推断下,真实情

《强化学习周刊》第32期:上海交大&华为 | 可解释强化学习研究综述_智源社区的博客-爱代码爱编程

No.32 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第32期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论

robotaxi里程竞赛开启,激光雷达成新热点 | 2021年自动驾驶趋势解读-爱代码爱编程

导读:回首已经过去的2021年,自动驾驶赛道上,「泡沫」尽头长路漫漫,技术尚未成熟,距离L4/L5级别自动驾驶的规模化应用仍有距离,但从商业模式的角度,「井喷」之势初现。基于测试里程积累,AutoX、小马智行、百度等国内第一梯队企业在Robotaxi技术及商业化进程上逐渐处于领先地位;同时国内大批新兴企业则聚焦港口、干线物流、城市物流等有限区域场景,

刘偲:ai+艺术 | 青源 talk 第 11 期_智源社区的博客-爱代码爱编程

活动议程 日期:1月13日(周四) 时间 主题14:30-14:35开场简介黄高  清华大学自动化系副教授、博导,青源会会员14:35-15:20AI+艺术刘偲 北航人工智能研究院教授、博导,青源会会员15:20-15:50互动交流15:50-16:20主持人对话嘉宾16:20-16:30茶歇 嘉宾简介:刘偲,北航人工智能研究院教授