代码编织梦想

0e12cf31c6e2d71b9f89e38215a95c8b.png

决策智能是国家新一代人工智能的重要发展方向,强化学习是实现决策智能的核心技术之一。在强化学习中,智能体与环境进行不断的交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励和最大。近年来,该方向已经取得了一系列瞩目的进展,比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。然而,作为一种新兴技术,强化学习与决策智能仍面临大量挑战。

专题论坛:AI系

议程 


b1e5be1f07c182ec8b681910eaaf34c6.png

嘉宾介绍


论坛主席-叶杰平

d0fe148aead1ffe71dd9f36fdfc7676c.png

叶杰平,贝壳找房副总裁、首席科学家,智源研究员,密西根大学教授,IEEE Fellow、ACM杰出科学家。叶杰平博士主要从事机器学习、数据挖掘和大数据分析领域的研究,致力于推进人工智能技术在出行、居住和医疗等领域的应用。他是多个国际顶级人工智能会议的资深委员会会员、区域主席和委员会副主席, 也是多个顶级人工智能期刊的副主编。曾获得KDD和ICML最佳论文奖,荣获2010年美国国家自然科学基金会生涯奖、2017年中国计算机学会“CCF科学技术奖科技进步卓越奖”、2019年度国际运筹学领域顶级实践奖--瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize)。

报告嘉宾-徐昕

4ec84278582995fd95dddc50176284cf.png

徐昕,国防科技大学智能科学学院智能科学技术系主任,博士生导师,国家杰出青年科学基金获得者。主要研究领域是机器人和智能无人系统的机器学习与自主控制。任中国人工智能学会理事,中国指挥与控制学会无人系统专业委员会副主任,IEEE高级会员。获国家自然科学二等奖1项、湖南省自然科学一等奖2项、国防科技进步二等奖与湖南省自然科学优秀论文一等奖各1项。主持国家自然科学基金重点项目2项、973课题等国家级项目10余项。出版专著2部,发表论文170余篇,代表性论文发表在IEEE TNNLS, IEEE TSMC: Systems, IEEE TPAMI, J. AI Research, Information Sciences, J of Filed Robotics, IEEE TCST, IEEE TITS, IEEE T-IE, IEEE/ASME T-Mechatronics等期刊,SCI收录80余篇。任IEEE Transactions on SMC: Systems, Information Sciences, International Journal of Robotics and Automation等国际SCI期刊的Associate Editor,CAAI Transactions on Intelligence Technology副主编以及《控制理论与应用》等期刊编委。

报告主题:强化学习的特征表示与知识迁移

报告摘要:报告分析了强化学习理论与算法研究面临的大规模连续空间泛化能力、在线学习效率和快速收敛性、不同任务之间的迁移学习等挑战性问题,阐述了强化学习的特征自动构造和表示学习研究进展,重点介绍了强化学习的稀疏核特征表示、流形特征构造、深度特征的稀疏编码等理论算法研究,并且进一步讨论了迁移强化学习的研究动态,介绍了基于元知识抽取的迁移强化学习算法研究进展。最后对相关领域的未来发展趋势进行了探讨。


报告嘉宾-应雷

3e6abae4f07badff07b8f6e60c5b5757.png

应雷是密歇根大学电子工程和计算机科学系教授。研究领域包括强化学习,大规模通讯网络和云计算系统,数据隐私和图挖掘。

报告主题:A Data-Driven Approach for Constrained Reinforcement Learning

报告摘要:Traditional reinforcement learning aims to maximize the expected cumulative reward, but in practice, many applications need to be operated under a variety of operational constraints. This talk introduces a data-driven approach for constrained reinforcement learning, which ensures operational constraints, such as safety and fairness, during both learning and decision making.  

报告嘉宾-汪昭然

841a76745f68070be0ab1bd984db0563.png

汪昭然,西北大学IEMS 系和 EECS 系助理教授。本科毕业于清华大学电子工程系,博士毕业于普林斯顿大学 ORFE 系(Microsoft Research PhD Fellow)。研究方向为增强学习、统计和优化,侧重于多智能增强学习和博弈论。曾获 AISTATS Notable Paper Award 以及 INFORMS 和 ASA 的 Best Student Paper Awards。

报告主题:Demystifying (Deep) Reinforcement Learning with Optimism and Pessimism

报告摘要:Coupled with powerful function approximators such as deep neural networks, reinforcement learning (RL) achieves tremendous empirical successes. However, its theoretical understandings lag behind. In particular, it remains unclear how to provably attain the optimal policy with a finite regret or sample complexity. In this talk, we will present the two sides of the same coin, which demonstrates an intriguing duality between optimism and pessimism.

- In the online setting, we aim to learn the optimal policy by actively interacting with the environment. To strike a balance between exploration and exploitation, we propose an optimistic least-squares value iteration algorithm, which achieves a √T regret in the presence of linear, kernel, and neural function approximators.

- In the offline setting, we aim to learn the optimal policy based on a dataset collected a priori. Due to a lack of active interactions with the environment, we suffer from the insufficient coverage of the dataset. To maximally exploit the dataset, we propose a pessimistic least-squares value iteration algorithm, which achieves a minimax-optimal sample complexity.


报告嘉宾-郝建业

ff4afe455c60f2320b7d673953a83ea9.png

郝建业博士,华为诺亚方舟决策推理实验室主任。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。主持参与国家基金委、科技部、天津市人工智能重大等科研项目10余项,研究成果荣获ASE2019、DAI2019、CoRL2020最佳论文奖等,同时在游戏AI、广告及推荐、自动驾驶、网络优化等领域落地应用。

报告主题:深度强化学习的挑战及落地

报告摘要:本报告首先会介绍深度强化学习背景与基础,然后从如何学的好、学的快、学的稳三方面介绍深度强化学习所面临的挑战及相应的解决方案,同时介绍深度强化学习在自动驾驶控制、5G网络优化、供应链物流优化等场景的应用。


报告嘉宾-秦志伟

95f8bb4e84d727009dddfabfa0d9a580.png

秦志伟(Tony)博士,滴滴AI Labs首席研究员,决策智能团队负责人,致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士,曾在沃尔玛全球电子商务任职研究科学家,近几年主要聚焦在强化学习及其在运筹优化,智能交通,在线营销上的应用。他在机器学习,数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文,并是多个会议和期刊(NeurIPS, ICML, KDD, AAAI, PAMI等)的评审专家。他和他的团队获得了 INFORMS 2019年Daniel H. Wagner Prize(运筹学杰出应用奖),并入选NeurIPS 2018 Best Demo Awards。Tony拥有10多项美国专利,涵盖智慧交通,供应链管理,和推荐系统。

报告主题:网约车交易市场优化:学习与评估


报告摘要:随着智能手机的日益普及和功能强大,网约车平台已经成为人们实现实时、个性化出行的可靠选择。滴滴, Uber, 和Lyft都是其中的领导者。这些平台通过连接司机和乘客,使空闲的车座被有效利用,来满足不断增多的实时出行需求。在此次讲座中,我们会介绍我们在网约车调度优化中的研究工作。我们先介绍离线强化学习方法,以及在一系列现实环境实验的结果。我们还会讨论我们在最新的统一派单调度的在线方法上的进展。


2021智源大会群英荟萃,已确认出席嘉宾包括图灵奖得主Yoshua Bengio、David Patterson,Peter Dayan以及人工智能各领域多位世界级的专家。本届大会采用线上+线下模式,线上报名已开启,线下参会和官网即将公开。

人工智能领域不容错过的内行分享,等你一同见证!

扫码加入「强化学习」论坛交流群,参与相关话题讨论

e92b71852e435538fce454040d7d7ed7.png


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/BAAIBeijing/article/details/116725846

张宏江对话清华“智班”:我想看到更多极客-爱代码爱编程

2021年10月17日,智源研究院理事长张宏江博士在清华大学交叉信息学院与“智90班”(2019级清华“智班”)同学们做了主题为《漫话职业规划》的报告与交流。在报告中,他介绍了个人经历,对人工智能研究与投资趋势进行了分析,并把他对职业的思考融入其中。 本文对报告内容进行了不改变原意的整理。 大师的故事 不知同学们是否认得图片中的人物?

《强化学习周刊》第29期:Atari 深度强化学习的研究综述、金融强化学习的最新进展...-爱代码爱编程

No.29 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第29期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和研究综述等,以飨诸

苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖-爱代码爱编程

【专栏:前沿进展】因果推断是当下人工智能、机器学习领域中的热门话题之一。在 11 月 26 日的青源 Talk 中,北京大学助理教授、青源会会员苗旺分享了题为「因果推断,观察性研究和 2021 年诺贝尔经济学奖」的报告。在本次报告中,苗旺老师首先介绍了 1989、2000、2021 三次诺贝尔经济学奖的背景,这三次诺奖得主的工作都与因果推理有着密切的

《强化学习周刊》第30期:Deep Mind开展人机交互的新试点研究、MIT提出神经进化优化框架...-爱代码爱编程

No.30 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第30期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。 周

《预训练周刊》第31期:OpenAI发表可定制版GPT3、谷歌提出精简自注意力算法-爱代码爱编程

No.31 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了12篇预训练相关的论文,涉及模型规模、表情符号生成、零样本图像生成、自注意力、语言模型、视频理解、多模态、对比学习、分子表征、抗体预测、蛋白作用预测和多模态测评的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍大模型

2021 AI技术盘点:预训练模型5大进展-爱代码爱编程

【专栏:前沿进展】2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展。其中,预训练模型无疑是2021年的重点发展领域。年初的Switch Transformer开启万亿参数模型的研发热潮,DALL·E和CLIP的问世推动多模态预训练的发展,“悟道”系列模型成为国内首个突破万亿参数模型等等——层出不穷的预训练模型涌现,催生

2021最大看点AI for Science,在哪些领域有斩获?-爱代码爱编程

【专栏:前沿进展】AI for Science是今年一大重点发展的新兴领域。中科院院士,北京大学教授鄂维南在2021年智源大会上表示:“传统的科研领域如化学、材料、电子工程、化学工程、机械工程等等,应该成为人工智能的主战场,或许不仅仅是主战场,很可能是未来十年最大的主战场。”AI for Science也被阿里达摩院评为2022年十大科技趋势之一。

《强化学习周刊》第31期:康奈尔大学推出基于强化学习的数据库调优工具DB-BERT...-爱代码爱编程

No.31 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第31期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及新工具,以飨诸位。

清华丁霄汉:从RepVGG系列谈起,结构重参数化如何暴力提升性能-爱代码爱编程

【专栏:前沿进展】“结构重参数化”是清华大学丁霄汉博士近年来提出的一种通用深度学习模型设计方法论。在青源 Live 第 34 期中,丁霄汉博士分享了题为「结构重参数化与通用视觉模型的基本设计元素」的报告,介绍了结构重参数化的起源和发展,以及他基于这一思想在改进单分支模型性能、设计卷积模型组件、模型剪枝等方向的相关研究工作。 本文整理自青源 LI

新国立尤洋:夸父AI——用于大规模并行训练的统一深度学习系统-爱代码爱编程

【专栏:前沿进展】自十年前AlexNet等模型在计算机视觉领域大放异彩,深度学习算法逐渐流行起来。近年来,BERT等大模型深受大公司喜爱,自2018年至今,最顶尖的大模型的规模越来越大,如GPT-3有1750亿参数,2021年的Switch Transformer达到了1.6万亿参数,智源“悟道”模型更是达到了1.75万亿参数。由此,OpenAI做出

《因果学习周刊》第8期:因果反事实预测-爱代码爱编程

No.08 智源社区 因果学习组 因 果 学  习 研究 观点 资源 活动 关于周刊 因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第8期《因果学习周刊》。 反事实推断问题(Counterfactual Predicti

智源社区票选2021 AI十大进展出炉!-爱代码爱编程

2021年11月,智源社区举办AI大调查,面向社区成员及广大AI领域的研究者和从业者,收集反馈意见和建议。目前已收到回复9000多份,根据智源社区2021AI大调查票选结果,我们选出了2021年人工智能领域十大技术进展事件,如下: 1.David Card、Joshua D.Angrist和Guido W.Imbens三人因对经济学研究的实证研

2021年智源人工智能前沿报告(AI Frontiers Report)发布【附下载链接】-爱代码爱编程

导读:2021年对于人工智能技术和产业,依旧是不平凡的一年。随着算力、数据、算法等要素逐渐齐备,先进的算法结构不断涌现,各个研究方向研究成果层出不穷,成熟的AI技术逐渐向代码库、平台和系统发展,实现产业和商业层面的落地应用,推动人工智能发展迈向新阶段。 在新的一年即将到来之际,智源研究院采用案例征集、专家咨询等方法,向高校和科研机构专家学者征集20

直播|深大周池:跨数据中心的高效大图处理问题研究-爱代码爱编程

本期为青源LIVE第38期线上直播活动,参与直播互动有惊喜🎁! 图计算模型被广泛用于数据分析研究领域,以期从大规模图结构数据中提取有用信息。近期,我们发现许多大数据处理应用需要分析大量以地理分布方式生成的数据。例如,社交网络用户的地理分布性很广,我们往往需要分析在多个数据中心快速生成的海量数据,从而向用户提供可靠和低延迟的服务(如基于用户兴

解读2021年智源 ai 前沿报告:医疗领域最新进展_智源社区的博客-爱代码爱编程

导读:2021年对于人工智能技术和产业,依旧是不平凡的一年。而在智能医疗赛道上,更是持续火热,各大医疗AI企业纷纷冲刺IPO。政策方面,国家开始逐步发放各类医疗影像AI软件三类证。而与此同时,数字疗法、手术机器人等新兴领域也逐渐博得了更多关注。精准医疗也被阿里达摩院评为2022年十大科技趋势之一。本文截取医疗健康部分的应用案例,全文请见2021-20

你就是你自己paper最好的审稿人:宾大苏炜杰提出peer review新机制_智源社区的博客-爱代码爱编程

【专栏:前沿进展】近年来,机器学习顶会论文数目井喷,审稿压力巨大,其同行评审制度备受质疑。宾大教授针对此挑战提出了由论文作者协助的新型同行评审机制。 你是否已经受够了NeurIPS,ICLR,ICML, CVPR, AAAI等会议的审稿意见?你是否有过最好的论文被拒稿,但是相对差的论文反而被接收的经历?相信对众多机器学习、人工智能领域的从业者来说

《因果学习周刊》第9期:因果学习中的工具变量_智源社区的博客-爱代码爱编程

No.09 智源社区 因果学习组 因 果 学  习 研究 观点 资源 活动 关于周刊 因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第9期《因果学习周刊》。 在因果学习中的反事实推断下,真实情

《强化学习周刊》第32期:上海交大&华为 | 可解释强化学习研究综述_智源社区的博客-爱代码爱编程

No.32 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第32期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论

robotaxi里程竞赛开启,激光雷达成新热点 | 2021年自动驾驶趋势解读-爱代码爱编程

导读:回首已经过去的2021年,自动驾驶赛道上,「泡沫」尽头长路漫漫,技术尚未成熟,距离L4/L5级别自动驾驶的规模化应用仍有距离,但从商业模式的角度,「井喷」之势初现。基于测试里程积累,AutoX、小马智行、百度等国内第一梯队企业在Robotaxi技术及商业化进程上逐渐处于领先地位;同时国内大批新兴企业则聚焦港口、干线物流、城市物流等有限区域场景,

刘偲:ai+艺术 | 青源 talk 第 11 期_智源社区的博客-爱代码爱编程

活动议程 日期:1月13日(周四) 时间 主题14:30-14:35开场简介黄高  清华大学自动化系副教授、博导,青源会会员14:35-15:20AI+艺术刘偲 北航人工智能研究院教授、博导,青源会会员15:20-15:50互动交流15:50-16:20主持人对话嘉宾16:20-16:30茶歇 嘉宾简介:刘偲,北航人工智能研究院教授