查看原文
其他

张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

集智学园 集智俱乐部 2023-11-29


导语


自从1956年“人工智能”诞生于达特茅斯会议以来,已经经历了从早期的以符号推理为主体的第一代人工智能,以及以深度神经网络、机器学习为主体的第二代人工智能。而ChatGPT的横空出世,生成式AI的普及,以及AI for Science等新领域的突破,标志着第三代人工智能的呼之欲出。新一代人工智能将会融合第一代的符号推理与第二代的机器学习技术,通过生成式大模型实现可学习、懂因果、会推理的智能主体。


可微分编程、神经微分方程、自监督学习、生成式模型、Transformer、基于图网络的学习与推理、因果表征与因果推断,基于世界模型的强化学习……,所有这些脱胎于前两代人工智能的技术要素很有可能将构成第三代人工智能的理论与技术的基础。然而,这些技术要素大多散落在各大会议、期刊的海量论文之中,没有被系统的梳理与综合,因而不方便初学者学习。


在这样的背景下,北京师范大学系统科学学院教授,集智俱乐部、集智学园的创始人张江老师,为大家带来了全新的《第三代人工智能技术基础——从可微分编程到因果推理》这门课程,试图系统化地梳理从机器学习到大语言模型,从图神经网络到因果推理等一系列可能成为第三代人工智能基础的技术要素,为研究者或学生在生成式AI、大模型、AI for Science等相关领域的学习和研究工作奠定基础。





系列课程4大模块



 
模块I:可微分编程
以Pytorch、Tensor Flow等为代表的深度学习平台通过将数值计算与符号计算在深度进行绑定,从而实现执行与学习的浑然天成,真正达成“万物皆可微分”的目标。这一切的基础正是自动微分技术。
第一章:人工智能概览
第二章:自动微分与PyTorch编程
第三章:机器学习基础
第四章:常见神经网络架构
第五章:神经微分方程

模块II:从自监督到生成模型
传统的机器学习需要大量的被标注数据,然而获得这种数据往往需要耗费巨额的成本。因此,自监督学习模式巧妙地在无标注数据上定义了一组监督学习任务,从而无监督地实现了数据的表征、抽象和生成机制的学习和提取。从短小精悍的Word2Vec,到逼近通用人工智能的ChatGPT无一不是采用了自监督学习模式。
第六章:表示学习与迁移学习
第七章:生成模型概览
第八章:从Transformer到ChatGPT

模块III:基于关系的学习与推理
万物之所以复杂,并不在实体而在于它们之间的关系。因而,如何让机器理解这些错综复杂的关系成为了AI的一个关键性问题。从2015年以来逐步发展起来的网络嵌入、图神经网络、注意力机制等技术都是为了处理复杂关系而生的。能够学习、把握知识,就能够自动从数据中提炼复杂系统的模型,并在代理模型上实施推理、模拟、规划与控制。
第九章:图神经网络
第十章:复杂系统自动建模

模块IV:从因果推断到世界模型
然而,由于相关不等于因果,纯粹以数据驱动的方式学习得到的替代模型并不天然具备因果推理的能力。我们必须允许智能体能够与环境进行互动和反馈,才有可能让它沿着因果的阶梯向上不断攀登。强化学习可以让智能体学会如何与世界互动,而世界模型则可以赋予智能体完成反事实推理与想象和规划的能力。
第十一章:因果科学基础
第十二章:因果机器学习
第十三章:基于世界模型的强化学习




“第三代人工智能技术基础”课程导览



 

大家好,我是张江。2023年春季,我在北京师范大学改革了我的课程“大数据驱动的人工智能”,我采用了一种我自称为“信息轰炸”的模式来为各位选课的研究生带来最新的、最前沿的人工智能进展,这便有了今天的这门“第三代人工智能技术基础”课。我的基本考虑是,现在互联网这么发达,ChatGPT完全能够替代老师,我即使教学经验再丰富,知识再渊博,也无法胜过AI及整个互联网,因此,我将我自己的身份定位为一个导游,我将穷尽我自身对AI前沿的探索知识,为大家提供尽可能全面的AI文献索引。当然,我会一如既往地以生动的讲解,和深入浅出的分析与洞察,把这些枯燥的文献串联起来,并试图呈现它们深层次的逻辑链接脉络。同时,我也会照顾到完全零基础的学员,因此在课程的第一模块,我会以最快的速度带大家做基本知识的扫盲。而后续的章节,全部都是最新的(近五年)前沿进展。这些进展将极可能成为第三代人工智能的技术基础。现在我就是你的向导,带你一起进入我的课程!

模块I:可微分编程


(1)人工智能概览(免费)

主要内容包括:
1、AI发展简史
你是否知道,AI的起源其实与20世纪初,希尔伯特给全世界数学家提出的23个著名数学难题中的两个有着密切的关系?你是否知道,哥德尔定理也许是人工智能永远不可逾越的终极障碍?1965年的达特茅斯会议是怎么回事儿?都是什么样的人参加了这个会议?
AI具有你我都难以想象的起伏人生,我把它概括成:革命前夜、AI诞生、落入低谷、三足鼎立、群龙无首、 新的突破、 智能爆发这八个阶段。每个阶段都是“江山代有人才出,各领风骚有几年”而已。

2、人工智能三大学派:符号主义、行为主义、链接主义
AI与复杂科学、涌现、进化有着怎样的联系?为什么说神经网络拥有比人工智能更长久的历史?

3、什么是深度学习?
你是否知道,构成深度学习的三大因素都是什么?深度学习的本质又是什么?


(2)从自动微分到PyTorch编程(免费)



主要内容包括:
1、什么是自动微分?
为什么说它是深度学习乃至第三代人工智能的基础技术?什么叫做万物皆可微分?为什么说自动微分是数值计算与符号计算的混合?

2、PyTorch编程30分钟速成
采用自动微分的视角理解PyTorch平台,你会发现它一下子简单多了!你根本不需要去死记硬背那些命令,但你一定要懂得微分编程的基本原理!

3、一个小例子
我将会用一个非常小的例子:线性回归预测房价预测,来给你展示机器学习中的最核心要素:什么是模型?什么是样本?什么是训练?什么是测试?什么是参数?什么是超参?……  所以,再复杂的机器学习程序,不过就是一个线性回归的放大版本而已。

4、用自动微分求解组合优化问题
你可能想不到,还可以用这样一种姿势——求解一个图上的组合优化问题,来使用PyTorch这个“深度学习”平台吧?所以,自动微分其实和机器学习可以没半毛钱关系!它不过就是一种便捷的优化算法。
划重点:
通过本章教学,你一定要透彻理解万物皆可微分的核心理念。未来,万事万物都是可微分的,也就是可学习的。


(3)机器学习基础(免费)



主要内容包括:
1、什么是机器学习?
机器学习是人工智能的一种重要分支,我将带你从一个最抽象、最简单的框架,站在输入-输出的视角来理解机器学习的本质。并带你一起回到历史中,来看看1959年Arthur Samuel以及1988年Tom Mitchell的观点。

2、机器学习的分类
机器学习领域蓬勃发展有诸多分支体系,如何系统化地认知机器学习,我将会给你提供两个思路,来帮助你快读定位不同机器学习技术或问题应该如何归类与应用,一个是分类树的视角,一个是抽取关键变量后形成坐标系的视角。

3、机器学习中的回归问题
这是一节机器学习基础课程,我将用一个最简单的回归问题,来把机器学习中的基本步骤和关键概念呈现给你,从训练、验证到结果评价,并在过程中通过可视化结合公式的方式来呈现,让你看到每一步程序的都在执行什么样的操作。也结合案例重点讲解了机器学习中的常见问题,包括欠拟合、过拟合、噪声问题、偏差-方差均衡问题、选择模型的复杂度问题等。

4、机器学习中的分类问题
分类问题也是机器学习中常见的问题之一,我将用以预测肿瘤良性或恶性这个分类问题为例,来讲解问题的分析过程,以及损失函数如何设计?如何设计停止训练的标准?……其中混淆矩阵、ROC、AUC、K-折交叉验证等都会有详细的介绍。
我们也设置了一个练习题来帮助你检验自己的学习成果,来动手开启你的第一个机器学习程序吧!


(4)常见神经网络架构(免费)



主要内容包括:
1、前馈神经网络
从最简单的二类分类到如今大火的ChatGPT,神经网络一直扮演着不可或缺的角色。在本节课中,我将介绍最基本的神经元模型(输入层、隐含层、输出层)、一些常见的激活函数以及一个具有代表性的神经网络结构:前馈神经网络。

2、神经网络的现实应用场景
本节会用一个现实场景(共享单车的区域数量预测)来探究神经网络的实际应用。对数据集的处理是影响神经网络输出结果的关键,常用的处理技巧比如:One-Hot编码、归一化、分批次训练等等我都会有详细的介绍。

3、如何分析一个神经网络?
神经网络往往意味着可解释性较差,但这并不代表我们无法对其进行分析。当我们在比较预测值与现实值的异同时,就可以对目标隐层单元的input进行数据分析,找出峰值的weight(权重)点,具体分析这些处于峰值的weight点实际对应的属性如何相互作用(如共享单车案例中的“雨雪雷电””早6点““周末”“早高峰”“南北区域”等等相互影响的属性),进而我们就可以对神经网络做出一定的解释性。

4、卷积神经网络(CNN)与循环神经网络(RNN)
除了前馈神经神经网络,CNN与RNN也是非常经典的模型,CNN的结构特点是由一些三维立方体组成的卷积层和池化层,主要应用于图像识别,像你所常见的人脸识别、图片风格生成等等都与CNN息息相关。而RNN非常擅长处理序列数据,比如文本生成、翻译、语音识别、个性推荐等等,无一不采用了CNN技术。它与前馈神经网络的结构非常相似,但不同的是隐含层单元之间可以是全连接的。此外,为了解决“遗忘问题”,RNN的后继者LSTM模型也是我们必须要了解的。在本小节中,我会带领你详细了解CNN、RNN、LSTM等经典模型,理解模型背后的运作逻辑。


(5)神经(常)微分方程



主要内容包括:
1、回顾深度神经网络的发展历史
深度学习是机器学习的一个分支,从Alex Network、VGG、FractalNet到ResNet(残差网络),深度学习的发展在一阶段在卷深度这个问题,也能看到模型效果随着深度的加深有显著的提高。而神经常微分方程是新一类的深度神经网络,它从另外一个角度考虑如何以连续的方式借助神经网络对数据建模,在理论上,它可以将深度扩展到无限大,同时保持好的效果。我将在这一节课程中带你了解这一新的模型。

2、什么是残差网络
残差网络是一类特殊的卷积网络,它通过残差连接而解决了梯度反传问题,当神经网络层级非常深时,梯度仍然能有效传回输入端。残差网络是神经常微分方程的特例,可以说残差网络是欧拉方法的离散化。我将带你认识从熟悉的残差网络入手,了解它的思想、结构和特性,破解它为什么能比其他网络结构有更好的性能,从而帮助更好理解怎么演化到 ODEnet。

3、神经微分方程架构是怎样的
神经微分方程可以看作是无穷深度的神经网络,这一小节我将带你了解这个连续化的过程是如何实现的,帮助你了解神经微分方程的架构,并把ResNet拉上进行对比,通过两者的不同之处,来体会这一新的神经网络架构精妙之处!


4、Neural ODE 用来解决监督学习问题
Neural ODE 可以为监督学习提供不同的解决方案,通过它可以学习到数据X与标签Y之间的连续映射关系。常微分方程的数值求解是什么?Neural ODE为什么能用微分方程求解代替反向传播?Neural ODE的伴随算法是什么?最优控制与反向传播算法有什么样的关系?Neural ODE如何用程序实现并用一个案例来说明其效果?……我将带你通过公式、可视化等方式来带你进入这些问题的内部。

5、Neural ODE 用来解决时间序列预测问题
时间序列预测问题也是一类重要的问题,我们能看到为了解决不同的问题,从Neural ODE 也进行了更多的改进,发展出了Latent ODE、Deep Multi-output forecasting等方法,我将对这些模型进行简单介绍,并通过几个实验来直接看到效果。


下面我们进入第二模块。


模块II:从自监督到生成模型


(6)表示学习与迁移学习


主要内容包括:
1、表示学习
表示学习最核心的就是利用一种监督学习的方式解决了一个无监督学习的问题,所以,人们又叫自监督。绝大部分生成AI能够成为热点,其技术本质就在于自监督这种训练方式,你可以找到大量的无监督的数据,就可以训练生成式AI了。这就摆脱了原来的依赖大量标注数据的传统AI。在这节课中,我会带领你了解自监督,并学习Representation Learning 中重要的几类自编码模型。

2、什么是词向量?
为了能够表征词语之间的关系,词向量应运而生。但是如何把单词表示成向量,空间和词义相似度的问题均不能完美解决,怎么办?从Dense编码到NPLMs、Word2Vec,我将帮助你理解各类编码的技术特性,学习NPLMs、Word2Vec等经典模型的设计细节。

3、语言模型的预测方式:CBOW和Skip-gram
语言模型在Word2Vec中分为两大类:前者是CBOW模型,在此之前,语言模型通常是从前往后线性预测,而CBOW是依据上下文推理中间词;后者Skip-gram则是与CBOW截然相反,模型通过给定词语来反向推理上下文。在本章节中,我会重点介绍Word2Vec两类模型的技术细节,除此之外还会带领你了解负样本、二分查找等概念。

4、迁移学习的基本概念
Transfer  Learning(迁移学习),往往是将一个领域的求解经验迁移另一个领域中(从日常的识别垃圾邮件到前沿的癌症研究都有其身影),在另一种意义上,它也是表示学习的一种应用。在本小节中,我会带领你学习如何利用NASA的全球夜景图和谷歌的卫星地图来评估地区的贫困程度。


(7)生成模型概览



主要内容包括:
1、什么是AIGC?
AIGC(Artificial Intelligence Generated Content),即人工智能生成内容。从常见的换脸、图像补全到前沿的三维重建、设计分子结构,AICG已经嵌入到我们的生活之中。在本小节中,我会带领你了解AIGC的发展以及实际应用场景。

2、生成式模型
生成式模型本质上是在学习概率分布:例如在图像生成场景中,实际上是在采样正态分布的随机变量,来生成图像。从蒙特卡洛采样到机器学习的兴起,目前生成式模型主要有:GAN、VEA、Flow-based、Diffusion。在这两节课中,我会带领你理解这四大类模型的基本原理。

3、生成式模型:GAN
一个经典的GAN模型(框架)主要包含了生成器、判别器两大类网络,前者从高斯采样的随机向量来随机的生成目标图像,后者用来判断图像的来源:真实数据还是生成数据。在本节课中,我会帮助你理解GAN的基本原理,介绍相关的GAN模型,以及反卷积、反池化等技术细节和一些常见的处理技巧。

4、生成式模型:VAE(变分自编码器)
变分是应用于泛函问题的求解,VAE中的Variational(变分)是对概率分布函数的求解。在本节课中我会带领你学习VAE的基本原理,了解VAE模型的优缺点,例如VAE的样本质量很高,并且具有显式的分布假设(高斯分布)用于显式的表示和观察,但模型复杂、训练困难、潜在空间模糊都是其难以回避的缺点。

5、生成式模型:Flow-based
Flow-based models,基于流的生成模型。受到VAE、蒙特卡洛采样的启发,Flow-based利用可逆的流做encoder(编码器)和decoder(解码器)。在本小节中,我会带领你了解Flow-based的巧妙设计思路,学习相关优化技巧。

6、生成式模型:Diffusion

Diffusion师承Flow-based,结构上与Flow-based类似,也存在一定的可逆性。Diffusion中通过将噪声逐步扩散到数据样本中来生成样本,利用对数似然差分估计方法进行优化,相比于Flow-based,Diffusion对复杂数据集的处理能力更好,更不易崩溃。

总体来看,GAN、VEA、Flow-based、Diffusion四个生成式模型在结构上具有相似性,在模型中都有一个编码器,一个解码器,编码器编码数据到一个噪声z,解码器通过采样z,来生成模拟任意数据分布。


(8)从Transformer到ChatGPT



主要内容包括:
1、Attention Is All You Need
2017年,Transformer横空出世,正是当今风头正盛的ChatGPT背后的技术核心。如小标题所言,Transformer的关键思想是Self-Attention,相比于CNN的N对1注意力策略,Transformer中Attention的N对N策略能敏锐的捕捉到词语之间的语法联系。在本节课中,我会带领你学习Transformer背后的Attention机制、了解Layer Norm、Feedforward、有向图等技术细节。

2、预训练和微调
Transformer过于优异的表现导致后人直接放弃对模型的改进,而把重心转到Pre-training(预训练)和Fine-tune(微调)。在本小节中,我会帮助你理解Bert模型中关于Pre-training和Fine-tune的训练方法。

3、所以,什么是GPT?
GPT(Generative Pre-trained Transformer,生成式预训练变换器),相比于同样是基于Transformer的Bert(谷歌“亲儿子”),单向的GPT模型事实证明比Bert的双向结构效果更优,而“黑魔法”:大规模的并行训练,则是其中重要的因素。在本节课中,我会带领你学习ChatGPT的基本架构、RLHL的评分系统构建,了解大模型中的Scaling Laws、Emergence现象等。


下面我们进入第三模块。


模块III:基于关系的学习与推理


(9)图神经网络



主要内容包括:
1、为什么要研究图神经网络?
网络被称为复杂系统的骨架,在复杂科学研究者眼中,万物都可以抽象为网络表示,复杂网络无处不在。AI 技术可以改造复杂系统的研究,让机器来理解这些错综复杂的关系成为AI研究的一个关键性问题,同时复杂科学也能引领发展出不同的人工智能,其中图神经网络会起到重要作用。

2、网络嵌入技术与下游任务
图神经网络这么重要,那么第一个要解决的问题,就是怎么来表示图呢?这就需要用到网络嵌入(network embedding)技术,我将带你学习Deepwalk、Node2vec两类常用的算法,同时 Struct2vec、node-community embedding、knowledge graph embedding 等也值得你了解。完成网络嵌入任务,拿到节点的向量表示后,就可以做一系列下游任务,比如节点级别任务中的节点分类、连边级别任务中的链路预测、图级别任务中的图分类等,我都会给你做简单的介绍。

3、什么是图神经网络以及常见的图神经网络架构
我将站在输入-输出的视角,带你了解图神经网络的基本原则和架构,其中信息聚合函数和update函数非常关键。我带你认识什么是GCN、Deep Set、Graph attention network等的关键设计,以及其中的不同之处。同时帮你打开思路,可以从哪些角度对GNN进行调整,从而开发出更多的网络架构。

4、网络嵌入和图神经网络的交叉:图变分自编码器(VGAE)
将图神经网络算法和网络嵌入结合起来,可以对节点做更好的表示,从而更好地完成下游任务。什么是自编码器?什么是变分自编码器?什么是图自编码器?什么是图变分自编码器?我将带你理解这个关键的概念和架构,以及如何用图卷积网络、图注意力网络等来完成网络嵌入。在下游任务比如连边预测、节点聚类上能直观体现出 VGAE 的优势。

5、图神经网络任务:网络补全
现实中我们通常很难得到一个复杂网络的全部数据,比如微博、Twitter、Facebook平台的社交网络的数据、恐怖组织的网络数据,都是其中的一部分。那么如何猜测出隐藏在冰山下的那部分数据,就是一个非常具有应用的研究。在研究中称为网络补全任务,我将带你直观了解网络补全任务要解决的问题,同时介绍目前的科研进展,包括C-GIN、GIN、G-GCN、Deep-NC 等技术的思想和框架。

6、图神经网络任务:图生成
图生成任务简单来说就是学习一个数据库中图的概率分布,从而来生成新的图。在图神经网络中,就是基于深度学习来学习图空间的概率分布,在药物设计、分子设计等场景有应用潜力。图生成任务可以按照有条件生成和无条件生成分为两种,我将带你主要了解无条件生成中的sequential generating和one-shot generating,以及对应的Graph-RNN算法和GNF算法等。


(10)复杂系统自动建模



主要内容包括:
1、传统的复杂系统建模方法与AI驱动的复杂系统研究
关于复杂系统的研究,经典传统研究包括康威的生命游戏、传播动力学模型、鸟群模型等,这些模型颇具洞见地利用较少的参数形成对复杂系统的理论分析,但也有显著的缺点比如更依靠人类经验、和真实数据无法很好协调、case by case等,为了克服这种问题,我就提出了一套使用 AI 技术助力复杂系统研究的框架,称为复杂系统自动建模。我会把从复杂系统-观测-AI系统训练-生成模型,以及基于此进行的预测、模拟、优化、控制等框架分享给你。

2、深度学习如何解决动力学学习问题
动力学学习是复杂系统自动建模中一个重要的问题,有很多传统方法可以解决这个问题,我会重点介绍哪些深度学习方法的介入可助力动力学的学习,比如RNN、多项式神经网络、库计算,以及解决图上的动力学学习的图神经网络等。并且介绍如何用图上的动力学学习方法来进行城市级别的 PM2.5 预测问题。

3、静态网络和动态网络的重构问题
动力学学习需要已知网络结构,但往往现实应用中图的结构并不知道,这时候就要进行网络重构问题的研究了。我会介绍我们课题组在这方面做的工作,并介绍这些工作的核心思想,以及gumbel softmax、network generator等技术,这样的算法也可以应用到基因网络中。同时还会介绍研究动态网络的自注意力模型,能够应用在动态的鸟群模型等的研究中。

4、复杂系统多尺度建模
复杂系统的复杂性体现在不同尺度下有不同的动力学,那是否能从原始的微观数据上,预测不同尺度上的动力学呢?这就是复杂系统多尺度建模所研究的问题。例如PM2.5预测问题中,拥有的是站点的数据,而需要预测的是城市级别的预测结果,就属于多尺度问题。我会介绍一个常用的架构Graph U-net,比如如何进行动力学预测、图的池化(粗粒化)等。

5、模型的应用:模拟、优化、控制等
模型建好之后,怎么用呢?我会介绍如何用建好的模型去替代真实的模型去做模拟、优化与控制,来完成工作闭环。



下面我们进入第四模块。


模块IV:从因果推断到世界模型


(11)因果科学基础



主要内容包括:


1、为什么要引入因果?

在上一小结复杂系统自动建模中我带你学习了希望基于数据出发构建真实的复杂系统模型,然后要求学习到的模型不仅能对系统进行预测还能对系统进行优化与控制,对于控制任务来说,我们需要反过来操控这个系统,只有当系统学习到的规律足够贴近真实系统的规律才能进行有效的控制,才能使得学习到的模型能泛化到分布外的数据。同时由于变量间有时存在混淆因子,会存在辛普森悖论等,这时就需要引入因果。因果在数据与模型之间架起了一座最小的桥梁。


2、因果的三层阶梯

Judea Pearl提出了因果的三层阶梯理论,使用因果的三层阶梯在于我们回答问题的时候会包含三种不同的类型。因此,我们需要用不同的方式进行回答,包括回答相关性问题、干预问题以及反事实问题。我会介绍为了回答这三类问题,需要分别引入三种模型:贝叶斯网络、因果图以及结构因果模型。


3、贝叶斯网络

为了回答相关性问题,即如果观测到x发生,y会发生吗?我会介绍如何借助贝叶斯网络模型。贝叶斯网络是一个能同时融合学习与推理的模型,其中贝叶斯网络是一个有向无环图,网络中的节点表示随机变量,有向边表示变量之间直接的影响,表示一种相关关系,同时每个变量存在一个条件概率表,这相当于网络中的动力学,其中每个条件概率表既可以根据人为的先验给定,也可以从数据中进行构建得到。然后根据贝叶斯网络我们可以将变量之间的联合分布分解为若单个模块概率的乘积。最后,我们可以根据贝叶斯网络,条件概率表以及贝叶斯公式、全概率公式等进行因果推断。


4、因果图

为了回答干预问题,即如果让x发生,y会发生吗?我会介绍如何借助因果图模型。其中因果图可以根据常识构建,也可以从数据中自动发现因果图。区别于贝叶斯网络,因果图中边的关系表示因果关系,同时因果图中允许do操作(即干预操作),该操作能判断两个变量之间的因果概率有多大。那具体do操作是如何实现的呢?例如,do(X=x)意味着对X的后门路径上的变量(Z)实施控制,具体在因果图中表示切断所有指向X的箭头,保持其他变量间的关系以及条件概率不变,从而得到新的因果图,然后基于新的因果图就可以计算变量间的因果效应进行因果推断。然而具体的干预实验成本是很高,我们能否从观测数据出发计算因果效应呢?答案是肯定的,在某些场合下,我们可以将do操作转换成普通的概率计算,具体包括两种准则,后门准则(已知混淆因子时)和前门准则(混淆因子未知时)。此外,Peral通过do-calculus给出了将do操作转换成条件概率的一般性方法。


5、结构因果模型

为了回答反事实问题,即如果让x没发生,而是x'发生,y'会是什么?我会介绍如何借助结构因果模型。其同样是一个有向无环图,但是区别于普通的因果图,这里每个节点存在一个额外的不确定变量U指向它,需要注意的是,每个节点的不确定变量彼此之间互相独立。此外,每个节点对应一个结构因果方程,是一个确定性函数。那么如何进行反事实的因果推断问题呢?包括三个步骤:1)溯因:根据证据确定U;2)作用:修改模型,对兴趣变量直接赋值;3)预测: 使用修正模型计算新的待求的变量值。

(12)因果机器学习



主要内容包括:

1、为什么要引入因果机器学习?

因果机器学习是一类数据生成过程满足结构因果模型的机器学习方法。因果机器学习能学到传统机器学习方法所不具有的因果机制。那么因果机器学习方法为什么能解决分布外泛化问题,应对不同的机制?我会重点介绍两个原因,一是存在独立因果机制原理,即系统变量的因果生成过程是由许多互不影响的自动模块构成;二是存在稀疏机制迁移,即在迁移的时候,因果模块可以作为不变的组成部分,通过小的微调使得模型能适用更广的环境,而且局部的微调不会影响其他部分。因此,这也是所说的局部的因果机制。


2、因果发现

因果发现是一类从大量时间序列数据中找到系统背后的因果图的算法。我会介绍两类主流的因果发现算法:独立性检验以及基于值函数的方法。其中独立性检验通过在数据之中检验三个变量之间的条件独立性,从而构建图上的D-分离,即变量间的关系;忠实性假说保证了数据中变量间满足条件独立性等价于因果图上满足条件独立性。目前常见的独立性检验方法包括:PC算法等。此外,我在之前章节讲的从时间序列数据中重构出的网络等价于格兰杰因果。因此,网络重构等价于因果发现,这个因果发现算法可以看成是一种基于值函数的方法。


3、因果表示学习

与因果发现不同的是,因果发现侧重于从数据中推断出真实的因果关系,而因果表示学习侧重于从数据中学习因果模型以提高机器学习模型的因果推断能力,可以用来做很多下游的任务,如干预、反事实以及迁移任务等。我将带你学习因果表示学习是如何从高维的观测数据中学习到潜在的因果变量、映射函数、因果图以及因果机制的。同时学习这些任务是很困难的,我还会介绍如何把问题进行简化,比如绕过直接学习隐变量,而是学习不确定变量U,学习一种解纠缠的表示。


4、因果涌现与神经信息压缩

当一个系统在宏观尺度能够展现出比它在微观尺度上具有更强的因果效应的时候,那么,这就发生了因果涌现。理论神经科学家Erik Hoel最早提出并定义了因果涌现框架,提出了一种因果效应度量指标有效信息(EI)来量化一个马尔可夫动力学的因果性强弱,通过对微观状态进行粗粒化得到宏观态,然后比较宏微观动力学的有效信息就可以定量的量化涌现的发生。然而该方法存在很多缺点,如只能应用到离散系统,粗粒化方案需要预先给定等。我会介绍最近提出的神经信息压缩方法(NIS),这个方法克服了这些问题,借助神经网络能够从时间序列数据中识别系统中的因果涌现,该方法能自动提取有效的粗粒度策略和宏观动力学。此外,因果涌现的识别与因果表示学习也密切相关,具有很多相似的地方。


(13)基于世界模型的强化学习



主要内容包括:

1、强化学习基本框架
2016年AlphaGO战胜世界围棋冠军李世石,迎来了强化学习领域的蓬勃发展。强化学习作为机器学习的一个子领域,是智能体从和环境交互的过程中学习行为决策的一种方法。本节我将带你学习强化学习的一些基本概念:作为交互主体智能体、和作为交互对象的环境,以及智能体相关的状态、动作、策略和从环境获取的奖励。这些元素构成了强化学习的基本框架。


2、强化学习分类
类似人类大脑中分别负责直觉性思维和逻辑性思维的两套系统,强化学习算法大致也可以分为两类:无模型(model-free)强化学习和有模型(model-based)强化学习。在大部分环境中,我们都不知道环境真实的动力学模型,从和环境交互的过程中采集数据来学习的方法称为无模型强化学习学习。事先知道或者从数据中学到关于环境的模型的方法称为有模型强化学习。我将会简要介绍有模型和无模型强化学习中的一些经典方法,并对比各自的优势和适用场景,帮你加深理解。

3、Q学习算法
这一节,我会带你深入学习一个经典的无模型强化学习算法:Q学习算法(Q-learning)。Q学习算法是一种时序差分算法,在和环境交互的过程中采集数据,通过后继状态的价值估计来更新当前状态的价值估计,状态的价值估计则通过一个Q值表进行学习。

4、深度强化学习
像围棋或者视频游戏这样的一些问题,可能的局面数目是巨大的,使用表格对这样的状态进行表示显然不可行。那如何解决状态高维的问题呢?函数近似提供了一种可行的思路,通过神经网络的方式来近似Q函数,我将带你学习如何将深度神经网络和强化学习相结合从而得到深度强化学习,其中强化学习算法能力的突飞猛进很大程度上也是受益于深度学习强大的表达能力。

5、基于World Model的强化学习算法
人类是如何认知这个纷繁复杂的世界的?我们如何知道什么样的行为会导致什么后果,并以此选择我们的行为。我们其实是在脑中构建了一个虚拟的关于世界的模型,这个世界模型会在和真实世界交互的过程中不断修正完善。World Model就是这样一种有模型的强化学习算法,智能体学习一个关于环境的内嵌的模型,在内嵌的模型中学习行为决策。我会给你介绍一种基于World Model的强化学习算法Dreamer,通过Dreamer的学习我们将看到一种普遍采用的模型学习和策略学习两阶段的世界模型框架。
6、因果与强化学习

人类从婴儿时期开始就在不断学习关于世界的因果信息,通过观察周围的环境变化情况可以学到部分因果信息,例如物体不会凭空消失,此外还会通过和环境交互中学习因果信息,例如将杯子扔在地上就会摔碎。这里体现出强化学习和因果的一些相似之处,首先,强化学习中的马尔可夫决策过程本身也可以看作是一种时间上的因果图。此外,强化学习中的动作(Action)和因果框架中的干预(Do)具有相似的含义,都是对环境进行影响。我们自然会想到能否将因果与强化学习相结合发挥出更强大的能力,答案是可以的,我将带你从两个方面探讨因果和强化学习相结合的两个前沿尝试:Causality on RL和RL on Causality。

7、强化学习与控制/决策

从自动驾驶决策规划到智能交通信号灯控制,从组合优化问题求解到自动化药物设计,强化学习方法正逐渐走出实验室的仿真游戏平台,在越来越多的实际场景中得到应用。在最后,我将介绍一些强化学习方法在实际场景中的应用,并对未来强化学习的发展做出展望。


模块
主题
主要内容
模块I:可微分编程
人工智能概览(免费)
(1)AI发展简史;
(2)人工智能三大学派:符号主义、行为主义、链接主义;
(3)什么是深度学习。
自动微分与PyTorch编程(免费)  
(1)介绍什么是自动微分技术,它的应用场景包括哪些;
(2)介绍PyTorch自动微分编程平台;
(3)应用Pytorch举例;
(4)用自动微分求解组合优化问题。
机器学习基础(免费)
(1)什么是机器学习?机器学习的简单分类有哪些?机器学习的基本步骤有哪些?机器学习的性能评估;
(2)机器学习中的常见问题;
(3)简单前馈神经网络与反向传播算法介绍。
常见神经网络架构(免费)
(1)前馈神经网络、卷积神经网络、循环神经网络等基本常见神经网络架构与编程实践;
(2)神经网络的分析框架。
神经微分方程
(1)常微分方程求解的数值算法;
(2)残差网络;
(3)Neural ODE原理;
(4)应用实例;
(5)最优控制与伴随算法。
模块II:从自监督到生成模型
表示学习与迁移学习
(1)表示学习;
(2)表示学习与迁移学习;
(3)预训练与迁移学习;
(5)图像的迁移学习举例;
(6)词向量技术与应用简介。
生成模型概览
(1)生成模型与预测模型的区别;
(2)生成模型的分类;
(3)GAN、VAE、Normalizing Flow、Diffusion Model等生成模型简介。
从Transformer到ChatGPT  
(1)注意力机制;
(2)自注意力机制与网络结构学习;
(3)Transformer架构介绍;
(4)Transformer的应用;
(5)基于语言模型的自监督学习机制;
(6)BERT、GPT3、ChatGPT等架构介绍。
模块III:基于关系的学习与推理
图神经网络
(1)图与网络;
(2)网络嵌入技术;
(3)图神经网络基本原理;
(4)图神经网络的基本应用:节点分类、网络补全、图生成;
复杂系统自动建模
(1)复杂系统;
(2)复杂系统建模方法;
(3)复杂系统数据驱动建模方法;
(4)包含了决策与反馈的完整闭环;
模块IV:从因果推断到世界模型
因果科学基础
(1)因果与相关;
(2)因果推断简介;
(3)结构因果模型。
因果机器学习
(1)因果发现;
(2)因果表示学习;
(3)因果涌现与神经信息压缩。
基于世界模型的强化学习
(1)强化学习基本框架;
(2)强化学习分类;
(3)Q学习算法;
(4)深度强化学习;
(5)基于World Model的强化学习算法;
(6)因果与强化学习;
(7)强化学习与控制/决策。




主讲人介绍



 
张江,北京师范大学系统科学学院教授,集智俱乐部、集智学园创始人,集智科学研究中心理事长,曾任腾讯研究院、华为战略研究院等特聘顾问。主要研究领域包括复杂系统分析与建模、规模理论、机器学习等。
集智斑图个人主页:https://pattern.swarma.org/user/9




课程资源推荐



 
Github:
1.课程Github页面:https://github.com/bnusss/2023-Big-Data-Driven-Artificial-Intelligence (Paper、Code、PPT等信息聚合)

书籍推荐:
  • 集智俱乐部:深度学习原理与 PyTorch 实战(第 2 版),人民邮电出版社,2022
  • Ian Goodfellow, Yoshua Bengio: Deep Learning, MIT, 2016(有中文版)
  • Stuart Russell, Peter Norvig: Artificial Intelligence: A Modern Approach, Prentice Hall, 2010
  • Sergios Theodoridis, Konstantinos Koutroumbas: Pattern Recognition, 2003
  • George F. Luger, Artificial intelligence, Pearson Education Limited, 2002
  • 朱迪亚·铂尔(著)、刘礼等(译):因果论,机械工业出版社,2022
  • Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition, 2009

参考线上课程:
  • Jure Leskovec: Machine Learning with Graphs, StanfordCS224W.
https://www.youtube.com/playlist?list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn
  • Steve Brunton: Data Driven Science and Engineering, University of Washington
http://databookuw.com/page-3/
https://campus.swarma.org/course/956

必读文献:
  • Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Trans Pattern Anal Mach Intell. 2013 Aug;35(8):1798-828. doi: 10.1109/TPAMI.2013.50. PMID: 23787338.
  • Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, David Duvenaud: Neural Ordinary Differential Equations, Proceedings of the 32nd International Conference on Neural Information Processing Systems,12,6572–6583, NIPS 18




课程信息



 

你能获得

1.了解当前第三代人工智能的最新进展;

2.掌握机器学习、神经网络、深度学习、数据驱动建模等人工智能核心技术的基本概念和基本方法;

3.掌握应用PyTorch平台使用的基本技能,可以用于简单项目开发


课程定价与购买方式

课程定价:399元
https://campus.swarma.org/course/5084?from=wechat

付费流程:
第一步:扫码付费
第二步:在课程详情页面,填写“学员信息登记表”
第三步:扫码添加助教微信,入群
本课程可开发票。




出品方:集智学园



 

集智学园成立于2016年,是集智俱乐部孕育的创业团队。集智学园致力于传播复杂性科学、人工智能等前沿知识和新兴技术,促进、推动复杂科学领域的知识探索与生态构建。
集智学园网站:campus.swarma.org
加入集智VIP,即可解锁集智全站课程、读书会。详见:
集智学园2022年费VIP开启,与5000+集智社区成员一起探索复杂性!




推荐加入读书会社区,深入探索新主题




因果涌现系列读书会社区

跨尺度、跨层次的涌现是复杂系统研究的关键问题,生命起源和意识起源这两座仰之弥高的大山是其代表。而因果涌现理论、机器学习重整化技术、自指动力学等近年来新兴的理论与工具,有望破解复杂系统的涌现规律。同时,新兴的因果表示学习、量子因果等领域也将为因果涌现研究注入新鲜血液。
在第一季的因果涌现读书会中,我们系统化地梳理了因果涌现的概念,以及它与Sloopy Model、复杂性阈值、自指等概念之间的联系,也探讨了该理论在复杂网络、机器学习中的应用。有关第一季读书会的内容,详情请见:
因果涌现读书会启动:连接因果、涌现与自指——跨尺度动力学与因果规律的探索
第二季读书会探讨了涌现、因果科学和机器学习三大主题的融合,包括信息论拓展、因果涌现理论、因果表示学习、多尺度机器学习动力学建模。我们深入研究这些领域的最新文献和进展,以拓宽我们对因果和信息等概念的理解。详情请见:
因果、涌现与机器学习:因果涌现读书会第二季启动

因果涌现第三季的读书会中,我们将进一步围绕因果涌现的核心研究问题『因果涌现的定义』以及『因果涌现的辨识』来进行深入的学习和讨论,对 Erik Hoel 提出的 Causal Emergence,Causal Geometry 等因果涌现的核心理论进行深入的探讨和剖析,并且详细梳理其中涉及到的方法论,包括从动力学约简、隐空间动力学学习等其他研究领域中学习和借鉴相关的研究思路,最后探讨因果涌现的应用,包括基于生物网络、脑网络或者涌现探测等问题展开扩展,发掘更多的实际应用场景。详情请见:

因果涌现读书会第三季启动:深入多尺度复杂系统核心,探索因果涌现理论应用


后 ChatGPT时代:从通用人工智能到意识机器读书会社区

2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。本系列读书会旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。同时,结合集智俱乐部常年来积累的各种人工智能技术讨论,展望后GPT时代的人工智能都有哪些可能性?详情请见:

“后 ChatGPT”读书会启动:从通用人工智能到意识机器


因果科学与Causal AI 系列读书会社区

因果科学社区由智源社区、集智俱乐部共同推动,面向因果科学领域的垂直型学术讨论社区,目的是促进因果科学专业人士和兴趣爱好者们的学习、交流和合作,推进因果科学学术、产业生态的建设和落地,孕育新一代因果科学领域的学术专家和产业创新者。集智俱乐部已经组织四季“因果科学”读书会,形成了超过千人的因果科学社区。第一季读书会梳理了因果科学的整体框架,形成因果科学的全局索引地图;第二季读书会进一步深入细节,从基础知识及基本技能建立因果科学的计算框架,搭建因果推理与实际研究的桥梁;在此基础上,第三季读书会致力于探究因果研究范式,真正解决多学科领域的因果问题。第四季读书会主要围绕因果表征学习引论、理论基础、技术框架,以及在机器学习领域和在工业界中的具体的应用进行深度探讨,系统梳理因果表征学习领域并促进相关的研究。



点击“阅读原文”,报名课程 
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存