代码编织梦想

深度学习正以“软件2.0”的姿态进入到AIGC、生物制药、新材料以及科学计算等领域。这些领域的模型规模越来越大,尤其以ChatGPT为代表的大模型层出不穷,但由于算力增速不足、分布式编程门槛高,分布式人工智能系统成为产学两界共同关注的焦点。

32a5d04e20c34674a60abb5414159258.jpeg

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第136期

主题 分布式人工智能系统

2023年5月19日~21日 北京

本期CCF学科前沿讲习班ADL136《分布式人工智能系统》,将对分布式人工智能系统的最新进展进行深入浅出的讲解,从AI大模型、系统架构、软件工程、行业应用,以及用户和开发者的不同视角为听众介绍分布式人工智能系统的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解分布式人工智能系统的技术概况、主要挑战和未来演进趋势,开阔科研视野,增强实践能力。

本期ADL讲习班邀请了6位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。中国科学技术大学计算机学院/国家高性能计算中心(合肥)李诚副教授将介绍大模型分布式并行训练;爱丁堡大学助理教授麦络将解读如何设计高效的大规模机器学习系统;阿里巴巴PAI Research Lab负责人刁岚松将探讨AI大模型自动分布式系统开发的底层逻辑;微软亚洲研究院高级研发工程师高彦杰将介绍如何构建更鲁棒、高效和可调试的深度学习开发与系统;潞晨科技CTO卞正达将分享低成本训练AI大模型的挑战与实践;光年之外联合创始人袁进辉将基于OneFlow探讨重新思考分布式深度学习框架的设计。通过他们的教学,旨在带领学员实现分布式人工智能系统从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。

学术主任:陈文光 清华大学 / 袁进辉 光年之外

主办单位:中国计算机学会

本期ADL主题《分布式人工智能系统》由清华大学教授陈文光和光年之外联合创始人袁进辉博士担任学术主任,邀请到李诚(中国科大计算机学院/国家高性能计算中心(合肥))、麦络(爱丁堡大学助理教授)、刁岚松(阿里巴巴PAI Research Lab负责人)、高彦杰(微软亚洲研究院高级研发工程师)、卞正达(潞晨科技CTO)做专题讲座。

活动日程:


具体日程将在会前通过邮件通知给参会者。

2023年519日(周五)

专题讲座1: 大模型分布式并行训练

李诚,副教授,中国科大计算机学院/国家高性能计算中心(合肥)

专题讲座2:设计高效的大规模机器学习系统

麦络,助理教授,爱丁堡大学

2023年5月20日(周六)

专题讲座3: 探究AI大模型自动分布式系统开发的底层逻辑

刁岚松,PAI Research Lab负责人,阿里巴巴

专题讲座4: 构建更鲁棒、高效和可调试的深度学习开发与系统 

高彦杰,高级研发工程师,微软亚洲研究院

2023年5月21日(周日)

专题讲座5: 低成本训练AI大模型的挑战与实践

卞正达,CTO,潞晨科技

专题讲座6: OneFlow:重新思考分布式深度学习框架的设计

袁进辉,联合创始人,光年之外

特邀讲者

d1da85317d222f2503b19d50d7c6b002.png

李诚

副教授,中科大计算机学院/国家高性能计算中心(合肥)

讲者简介:李诚,德国马普学会软件系统所(MPI-SWS)博士,中国科大计算机学院/国家高性能计算中心(合肥)副教授,博导,FCS、CCF THPC期刊青年编委。聚焦融合高性能计算基础系统软件研究,在 SOSP、OSDI、EuroSys、ATC、FAST、ASPLOS、SC、HPCA等计算机系统领域著名国际会议上发表论文40余篇。2019年入选ACM FCA成员。曾担任第14届/第21届 ChinaSys程序共同主席、SOSP 2017 学术海报程序共同主席、EuroSys 2021/ACM SIGMETRICS 2023论文出版共同主席、首届CCF计算机系统大会/芯片大会宣传主席等,长期参与SOSP、FAST、Middleware、DSN、ICDCS、SRDS等系统领域著名国际会议的程序委员会。获2022 AI 2000 Most Influential Scholar Honorable Mention in Computer Systems、2022年CCF分布式专委杰出青年学者、2021年ACM ChinaSys新星、2021年ACM中国新星提名等科研奖项。主讲《编译原理和技术》课程入选第二批国家级线下一流课程,获安徽省第五届青教赛工科组一等奖、第四届中国计算机教育大会计算机类教学资源建设特等奖(2项)、全国高校教学创新大赛安徽省二等奖等教学奖项。

报告题目:大模型分布式并行训练

报告摘要:随着摩尔定律的失效,人工智能和大数据等新兴应用对高性能处理需求的不断增加,计算机系统的设计与部署越来越多地从单机单处理器向多机多处理器的并行与分布式模态演变。并行与分布式系统逐渐发展成为促进互联网、云计算、大数据、人工智能等方向创新融合的主要支撑技术。然而,以深度学习为代表的新型并行与分布式计算面临严重的“数据墙问题”。随着模型规模的增大、模型结构的复杂化、训练数据体量的不断累积,数据交互已成为分布式并行训练最主要的性能瓶颈。李诚老师的科研工作以新场景和新硬件为驱动,解决异构并行、分布式计算中面临的数据搬运和同步瓶颈,成果被工业广泛关注。本报告将以超大规模深度神经网络模型的并行训练为例,介绍最新的科研成果及对未来技术趋势的思考。

106483f3fc9ba5927a38442afc434030.png

麦络

助理教授,爱丁堡大学

讲者简介:麦络,2020年7月加入爱丁堡大学信息学院担任助理教授,领导大规模机器学习系统实验室。其研究兴趣包括计算机系统、机器学习和数据管理。麦络参与设计多个开源机器学习系统,包括 Quiver, KungFu和 TensorLayer 等。其科研成果发表在知名国际会议,包括OSDI,NSDI,USENIX ATC和 VLDB。麦络于2018年在帝国理工学院获得博士学位,博士期间获得谷歌奖学金资助。2018-2020年间,麦络在帝国理工学院担任博士后研究员,同时在微软研究院担任访问研究员。

报告题目:设计高效的大规模机器学习系统

报告摘要:在AI时代,我们需要大规模机器学习系统来完成各类AI模型的训练和部署。然而,现有系统无法充分理解AI模型独特的数据访问特征,同时也没有充分利用AI服务器上的GPU-NUMA架构。因此,时至今日,大规模机器学习依然需要耗费大量昂贵的硬件资源。在本次演讲中,我们将介绍两个高效的大规模机器学习系统,Ekko和Quiver,它们分别利用AI模型的数据访问特性和GPU-NUMA架构来实现了高效的模型训练和推理。Ekko和Quiver都已经被领先的AI实践者采用,并每天惠及数亿用户。

d2648dfd664b0d9d99f25e7d6c48d147.jpeg

刁岚松

PAI Research Lab负责人,阿里巴巴

讲者简介:刁岚松于2003年从北京理工大学获得博士学位。博士期间的研究课题是硬件描述语言高层次综合技术。毕业后加入Cadence北京研发中心,从事spice仿真工具的研发。之后于2008年加入北京飘石科技有限公司,主持开发了国内首套商用RTL综合工具。后来在2017年加入阿里巴巴PAI团队。早期参与开发了FPGA CNN加速器软硬件系统。然后主持开发了AI大模型自动分布式系统TePDist。

报告题目:探究AI大模型自动分布式系统开发的底层逻辑

报告摘要:随着ChatGPT的大热,以GPT3/GPT4为代表的大模型的训练技术最近也受到越来越多人的关注。阿里巴巴PAI团队在大模型训练技术上长期投入,经过多年积累,开发了全自动分布式系统TePDist。工业界、学术界已经开发过多款大模型分布式系统,PAI团队开发的TePDist有什么不同?刁岚松博士将介绍TePDist的系统架构,并剖析TePDist的分布式策略探索算法,介绍算法选择背后的底层逻辑。同时,他还将分析分布式策略探索仍然面临的挑战,以及可能的解决方法。

6635994f67a75e72ba0f97d280c3c23b.jpeg

高彦杰

高级研发工程师,微软亚洲研究院

讲者简介:微软亚洲研究院高级研发工程师。研究兴趣为深度学习平台工具和大数据系统的鲁棒性,效率与可调试性,积极参与人工智能系统教育。其中多项工作发表在著名系统与软件工程会议ICSE,ESEC/FSE,SoCC,并出版多部技术图书。

报告题目:构建更鲁棒、高效和可调试的深度学习开发与系统 

报告摘要:近年来人工智能特别是深度学习与大语言模型技术得到了飞速发展,这背后离不开计算机硬件和软件系统的不断进步。在可见的未来,人工智能技术的发展仍将依赖于计算机系统和人工智能相结合的共同创新模式。但是我们观察到深度学习开发的生命周期中面临大量的程序缺陷,硬件与服务故障,造成大量作业难以稳定与高效完成执行,影响生产力和造成资源浪费。在本次报告里,我们将介绍关于深度学习程序缺陷,AI平台质量问题的实证研究,以及如何通过人工智能工具和系统设计缓解与规避相应的缺陷,故障,让深度学习作业和系统更加稳定与高效的执行。

8a3a2717e571a6e1dd114aa13cc35810.png

卞正达

CTO,潞晨科技

讲者简介:潞晨科技 CTO,新加坡国立大学、西安交通大学硕士,对大规模深度学习和分布式计算有深入研究,Colossal-AI 主要贡献者之一,曾在 SC、TON 等顶级会议期刊上发表一作论文。

报告题目:低成本训练AI大模型的挑战与实践

报告摘要:AI模型在几年内已增大万倍,远超硬件能力数倍的增长,如何高效利用分布式技术实现AI大模型的并行训练加速已成为行业关键痛点。在本次报告中,我将与大家介绍面向AI大模型时代的通用开发系统Colossal-AI,它通过高效多维并行、异构内存管理、大规模优化库、自适应任务调度等方式,仅需几行代码,便可与已有项目结合,高效快速部署AI大模型训练,为企业降低AI大模型落地应用成本。

ed7b6bb97a19ee052caa587eff9076c9.jpeg

袁进辉

联合创始人,光年之外

讲者简介:袁进辉,光年之外联合创始人。清华大学计算机系博士、博士后,师从张钹院士。清华大学优秀博士学位论文奖获得者,曾任微软亚洲研究院主管研究员,专注于大规模机器学习平台及基于异构集群的深度学习系统研发,发明了当时世界上最快的主题模型训练算法和系统LightLDA。2017年发起和主导研发了开源深度学习框架OneFlow,在分布式深度学习系统编程易用性和高效性方向设计了一系列新方法,并为国内外主流深度学习框架广泛跟进和效仿。兼任之江实验室天枢开源开放平台架构师,北京智源人工智能研究院大模型技术委员会委员。

报告题目:OneFlow:重新思考分布式深度学习框架的设计

报告摘要:近来,大规模预训练模型备受关注,但多数通用深度学习框架仅支持数据并行,还不直接支持大模型所需要的模型并行、流水并行等技术,只能基于框架定制开发专用软件系统(如Megatron-LM、 DeepSpeed等)来满足需求,分布式训练的易用性和通用性大打折扣,能不能让通用深度学习框架直接满足这些需求呢?本次课程对这个问题展开探讨:(1)梳理和总结大模型带来的技术挑战,讨论主流开源解决方案的技术原理和优缺点;(2)基于 OneFlow 实践讨论如何直接、统一、简洁地实现大模型训练所需要各项关键技术,让大规模分布式深度训练像在单卡上编程一样简单;(3)NCCL 作为一款高效灵活的集合通信库已成为分布式深度学习的标配,但其非抢占式调度机制在大模型场景非常容易导致死锁,我也将讨论如何通过抢占式调度来实现一款能避免死锁的集合通信库。

学术主任

22f4f2fea731d79d4a26f619dc76f4a1.png

陈文光

教授,清华大学

陈文光,CCF杰出会士、CCF副秘书长、YOCSEF荣誉委员,2020年“CCF杰出贡献奖”获得者。他是清华大学计算机系教授,ACM中国理事会常务理事。他的主要研究领域为操作系统、程序设计语言与并行计算。他曾获得国家科技进步二等奖、国家教委科技进步二等奖和北京市科技进步二等奖各一次。陈文光一直担任CCF CSP(计算机软件能力认证)技术委员会主席,负责组织制定CSP认证标准,主持CSP命题和评价,为CSP的权威性、专业性作出了杰出贡献。为此,陈文光获得了2020年“CCF杰出贡献奖”。

c4ef5e8f8776a7c396748bde923dedf1.jpeg

袁进辉

联合创始人,光年之外

袁进辉,光年之外联合创始人。清华大学计算机系博士、博士后,师从张钹院士。清华大学优秀博士学位论文奖获得者,曾任微软亚洲研究院主管研究员,专注于大规模机器学习平台及基于异构集群的深度学习系统研发,发明了当时世界上最快的主题模型训练算法和系统LightLDA。2017年发起和主导研发了开源深度学习框架OneFlow,在分布式深度学习系统编程易用性和高效性方向设计了一系列新方法,并为国内外主流深度学习框架广泛跟进和效仿。兼任之江实验室天枢开源开放平台架构师,北京智源人工智能研究院大模型技术委员会委员。

时间:2023年5月19日-21日

地址:北京•中科院计算所一层报告厅(北京市海淀区中关村科学院南路6号)

7be2f0c0ea00376573b4378d6144102d.jpeg

乘坐北京地铁10号线到“知春里站”下车出A口,步行10分钟即到。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。应部分学员的要求,本期ADL线上同步举办,线上线下报名注册费用相同。线上会议室号和密码将在会前3天通过邮件发送。

2、报名截止日期:5月17日。报名请预留不会拦截外部邮件的邮箱,如qq邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。

3、咨询邮箱 : adl@ccf.org.cn

缴费方式:

在报名系统中在线缴费或者通过银行转账:

银行转账(支持网银、支付宝):

开户行:招商银行北京海淀支行

户名:中国计算机学会

账号:110943026510701

请务必注明:ADL136+姓名

报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。

报名方式:

请选择以下两种方式之一报名:

1、扫描(识别)以下二维码报名: 

9b1acece8dfb6ea18774ff3d7bbde094.png

2、点击报名链接报名:

https://conf.ccf.org.cn/ADL136

“chatgpt们”的淘金时代-爱代码爱编程

作者|Pietro Casella、Patrik Liu Tran 翻译|贾川、徐佳渝、杨婷 语言(即读写能力)是人类最重要的发明,也是人类与其它物种的最大区别。语言使我们掌握了抽象推理,发展出了复杂思维,学会了与他人沟通交流。可以说,没有语言就不会有现代文明。 因此,未来几年大型语言模型(LLM)将极大地影响生成式AI的发展,Ch

大型语言模型的推理演算-爱代码爱编程

作者|kipply 翻译|杨婷、徐佳渝、贾川‍‍ 本文详细阐述了大型语言模型推理性能的几个基本原理,不含任何实验数据或复杂的数学公式,旨在加深读者对相关原理的理解。此外,作者还提出了一种极其简单的推理时延模型,该模型与实证结果拟合度高,可更好地预测和解释Transformer模型的推理过程。 为了更好地阅读本文,读者需了解一些Tra

nccl源码解析②:bootstrap网络连接的建立-爱代码爱编程

作者|KIDGINBROOK更新|潘丽晨上次介绍到rank0的机器生成了ncclUniqueId,并完成了机器的bootstrap网络和通信网络的初始化,这节接着看下所有节点间bootstrap的连接是如何建立的。 rank0节点执行ncclGetUniqueId生成ncclUniqueId,通过mpi将Id广播到所有节点,然后所有节点都会执行ncc

全球首个完全开源的指令跟随大模型;t5到gpt-4最全盘点-爱代码爱编程

1. Dolly 2.0:世界上第一个完全开源的指令跟随LLM 两周前,Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly,其训练成本不到 30 美元。今天,他们发布了 Dolly 2.0,这是业内第一个开源的指令跟随LLM,并根据高质量的人类生成的指令数据集(15000个prompt/response pairs)进

狂追chatgpt:开源社区的“平替”热潮-爱代码爱编程

目前,不少优质的类ChatGPT模型都只能通过API接入,而一些开源LLM的效果与ChatGPT相比差距不小。不过,近期开源社区开始密集发力了。 其中,Meta的LLaMA模型泄漏是开源“ChatGPT”运动的代表性事件。基于LLaMA模型,开源社区近期接连发布了ChatLLaMa、Alpaca、Vicuna、Koala等模型,效果直追GPT-3

ai算力碎片化:矩阵乘法的启示-爱代码爱编程

尽管AI的发展取得了巨大进步,但编译器LLVM之父Chris Lattner认为,AI技术应用并不深入,远远没有发挥出已有机器学习研究的所有潜力。而AI系统和工具的单一化和碎片化正是造成这一问题的根源。 为了让AI发挥其真正的潜力,计算碎片化是需要解决的重点问题之一,目标是让AI软件开发人员能够无缝地充分利用现有硬件和下一代创新硬件。但解决这一

向量嵌入:autogpt的幻觉解法?-爱代码爱编程

来源|Eye on AIOneFlow编译翻译|贾川、杨婷、徐佳渝 “一本正经胡说八道”的幻觉问题是ChatGPT等大型语言模型(LLM)亟需解决的通病。虽然通过人类反馈的强化学习(RLHF),可以让模型对错误的输出结果进行调整,但在效率和成本上不占优势,况且仅通过RLHF并不能彻底解决问题,由此也限制了模型的实用性。 由于大型语言模型

nccl源码解析③:机器内拓扑分析-爱代码爱编程

作者|KIDGINBROOK更新|潘丽晨 上节介绍所有节点执行了bootstrap网络连接的建立,接下来介绍下拓扑分析。 由于GPU机器架构是多种多样的,一台机器上可能有多个网卡,多个GPU卡,卡间连接也各不相同,因此需要对机器内设备连接拓扑进行分析,以使性能在各种拓扑结构下都尽可能好。 接着上回继续看initTransportsRank

john schulman:强化学习与真实性,通往truthgpt之路-爱代码爱编程

OneFlow编译翻译|贾川、徐佳渝、杨婷 大型语言模型(LLM)有一个众所周知的“硬伤”——它们经常会一本正经编造貌似真实的内容。 OpenAI团队希望通过改进强化学习反馈步骤“原生地”阻止神经网络产生幻觉,OpenAI首席科学家Ilya Sutskever对此胸有成竹。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的

复杂推理:大型语言模型的"北极星"能力-爱代码爱编程

(在天体摄影中,当使用长曝光拍摄星轨时,北极星位于星轨的中心,始终指向真正的北方。在古代,它为旅行者指引方向。) 作者 | 符尧 爱丁堡大学博士生 最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互

transformer模型的基础演算-爱代码爱编程

作者 | Quentin Anthony、Stella Biderman、Hailey Schoelkopf OneFlow编译 翻译 | 贾川、徐佳渝、杨婷 1 引言 Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究

揭秘rlhf;可商用开源llm列表;领域编译器的前世今生-爱代码爱编程

1. GPT创造者:第二次改变AI浪潮的方向 那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响? 链接: https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5Y

关于大型语言模型的争论和局限-爱代码爱编程

以色列巴伊兰大学教授Yoav Goldberg分享了他对大型语言模型的能力和局限性的看法,以及在语言理解方面的立场。(以下内容经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。原文:https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8a9) 作者

openai创始人:gpt-爱代码爱编程

OneFlow编译 翻译|杨婷、贾川、徐佳渝 三十年前,互联网(Web 1.0)时代开启。人们只能在笨重的电脑上用鼠标点击由HTML编写的网页文本,随后开始支持插入图片,可以上传视频,于是有了网络新闻、搜索、电子邮件、短信、网游......互联网带来了全新的商业模式,深刻改变了人们的生产生活。 三十年后的当下,以ChatGPT为代表

gpt-爱代码爱编程

作者|成诚 虽然我们早在 2017 年就预测了超大模型的到来,因此才搞了分布式深度学习框架 OneFlow(github.com/Oneflow-Inc/oneflow/),且 2020 年的 GPT-3 也掀起了大模型热潮(OneFlow——让每一位算法工程师都有能力训练 GPT) ,但当时各项测试屠榜的 GPT-3 的超高训练成本和大模

gpt-爱代码爱编程

OneFlow编译 翻译|贾川、杨婷、徐佳渝 编辑|王金许 一朝成名天下知。ChatGPT/GPT-4相关的新闻接二连三刷屏朋友圈,如今,这些模型背后的公司OpenAI的知名度不亚于任何科技巨头。 不过,就在ChatGPT问世前,OpenAI在GPT-3发布后的两年多时间里陷入沉寂,甚至开始被人唱衰。实际上,OpenAI在这期间正在

谷歌研究科学家:chatgpt秘密武器的演进与局限-爱代码爱编程

来源|TalkRL OneFlow编译 翻译|徐佳渝、贾川   同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习。 在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更关注的让模型输出

oneflow源码解析:eager模式下tensor的存储管理_模型tensor静态内存分配-爱代码爱编程

作者|郑建华 1  不同Tensor类型的存储管理方式 Lazy Tensor 的存储是由 Runtime 和 Actor 等对象管理的。静态图完成编译后,需要多少个对象、多少存储空间都是确定的,Runtime 等在初始化时会分配存储,在退出时回收资源。 Eager 模式下,Global Tensor 可以视为对 Loca

推演语言模型的大小与计算开销_chinchilla定律-爱代码爱编程

2020年,OpenAI提出了在增加模型尺寸与提高模型性能之间的扩展定律,指出人们应该将大部分预算用于扩大模型规模。这篇论文直接推动了增大模型规模的浪潮。然而,在预算和内存有限的情况下,盲目扩大模型规模并不是提升模型性能的最佳选择。   2022年,DeepMind团队发表了一篇论文(https://arxiv.org/pdf/2203.1

为什么chatgpt用强化学习而非监督学习?_gpt用到强化学习了没-爱代码爱编程

为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见。在上周发布的《John Schulman:通往TruthGPT之路》一文中,OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习(RLHF)方面的进展,分析了监督学习和强化学习各自存在的挑战。 基于Sch