代码编织梦想

总结:

 ICML-2021的论文

目录

Abstract

1、Introduction

2、Related Work

2.1.Learning common representation.

2.2.Causality and domain generalization.

2.3. Matching and Contrastive Loss.

2.2. Other work.

3、Insuffificiency of class-conditional invariance

3.1. A simple counter-example

3.2. An empirical study of class-conditional methods

4、A Causal View of Domain Generalization

4.1. Data-generating process

 4.2. Identifying the invariance condition

4.3. A “perfect-match” invariant

4.4. Past work: Learning common representation

5. MatchDG: Matching without objects

5.1. Two-phase method with iterative matches

Contrastive Loss.

Iterative matching.

The importance of using two phases.

5.2. MDG Hybrid

5. Conclusion


Abstract

在领域泛化文献中,一个共同的目标是在类标签的条件作用后学习独立于领域的表示。我们证明了这个目标是不够的:存在一些反例,即一个模型即使在满足类条件域不变性后也不能推广到不可见的域

我们通过一个结构因果模型形式化这一观察,并显示了建模类内变化对泛化的重要性。具体来说,类包含描述特定因果特征的对象,而领域可以被解释为对这些改变非因果特征的对象的干预。我们强调了另一个条件:如果跨域的输入来自相同的对象,那么它们应该具有相同的表示。在此基础上,我们提出了在观察到基本对象时基于匹配的算法(例如,通过数据增强),以及在对象未被观察到时近似目标的算法(MatchDG)。我们简单的基于匹配的算法与之前在旋转MNIST、Fashion-MNIST、PACS和胸部x射线数据集的域外精度方面的工作相比具有竞争力。我们的方法MatchDG还恢复了地面真实对象匹配:在MNIST和Fashion-MNIST上,MatchDG的前10个匹配与地面真实匹配有超过50%的重叠。


1、Introduction

领域泛化是学习一个机器学习模型的任务,该模型可以推广到看不见的数据分布,经过训练后,在一个以上的数据分布。例如,在一个区域的医院上训练的模型可以部署到另一个区域,或者图像分类器可以部署在轻微旋转的图像上。通常情况下,它是假设的不同的领域共享一些“稳定”的特征,这些特征与输出的关系在不同的领域之间是不变的(Piratla et al.,2020),其目标是学习这些特征。一类流行的方法旨在学习独立于基于类条件的领域的表示(Li等人,2018c;d;Ghifary等人,2016;胡等人,2019),基于其优势的证据(赵等人,2019)学习不于领域的表示(Muandet等人,2013;Ganin等人,2016)。

在本文中,我们证明了表示的类条件域不变目标是不够的。我们提供了反例,其中一个特征表示满足目标,但仍然不能推广到新的领域,无论是理论和经验。具体来说,当需要学习的稳定特征的分布在不同领域之间发生变化时,类条件目标不足以学习稳定特征(只有当稳定特征在不同领域之间的分布相同时,它们才是最优的)。在同一类别标签内,稳定特征的不同分布在现实数据集中是常见的,例如,在数字识别中,稳定特征的形状可能因人的书写而不同,或者医学图像可能因人之间身体特征的变化而不同。我们的研究揭示了考虑稳定特征的不包含变化的重要性。

为了获得一个更好的领域泛化目标,我们使用一个结构因果模型来表示稳定特征的类内变化,基于之前的工作(HeinzeDeml &梅因豪森,2019)的单领域泛化。具体地说,我们为数据生成过程构建了一个模型,该模型假设每个输入都是由稳定(因果)和领域依赖(非因果)特征的混合构建的,只有稳定特征才能导致输出。我们认为域是一种特殊的干预措施,它可以改变输入的非因果特征,并假设一个理想的分类器应该只基于因果特征。使用d分离,我们表明正确的目标是建立一个表示不变的条件在每个对象,一个对象被定义为一组输入共享相同的因果特性(例如,同一个人的照片从不同的观点或增强的图像在不同的旋转,颜色或背景)。当对象变量被观察到时(例如,在自收集的数据中或通过数据集增强),我们提出了一个完美匹配的正则化器域泛化,最小化域之间同一对象的表示之间的距离。

然而,在实践中,底层对象并不总是已知道的。因此,我们提出了一个近似方法,目的是学习哪些输入共享相同的对象,假设来自同一类别的输入比来自不同类别的输入具有更多相似的因果特征。我们的算法,MatchDG是一个迭代算法,它从来自同一个类的随机匹配的输入开始,并使用对比学习构建一个表示,这样共享相同因果特征的输入彼此更接近。虽然过去的工作使用对比损失规范化经验风险最小化(ERM)目标(Dou et al.,2019),我们展示了两阶段性的方法的重要性,首先学习表示独立于ERM损失,所以分类损失不干扰稳定特性的学习特性。在带有数据增强的数据集中,我们扩展了MatchDG,以便也使用从原始图像和增强图像对中获得的完美对象匹配(MDGHybrid)。

我们在旋转MNIST和Dashion-MNIST、PACS和胸部x光数据集上评估了我们的基于匹配的方法。在所有的数据集上,简单的方法MatchDG和MDGHybrid在域外精度方面与最先进的方法具有竞争力。在已知地面真实对象的旋转MNIST和FadadonMNIST数据集上,MatchDG学习使表示更类似于它们的地面真实匹配(前10个匹配约有50%的重叠),尽管该方法无法访问它们。我们的简单匹配方法的结果表明了强制执行正确的不变性条件的重要性。

综上所述,本文的主要贡献如下:

  • 域泛化的对象不变条件,突出了以前方法的一个关键限制,
  • 当对象信息不可用时,可以采用两阶段的迭代算法来近似基于对象的匹配。此外,还可以通过: https:// github.com/microsoft/robustdg访问代码存储库

2、Related Work

2.1.Learning common representation.

为了学习一个可推广的分类器,有几种方法强制学习到的表示Φ(x)独立于域边缘或条件类标签,使用发散度量,如最大平均差异(Muandet等,2013;李等,2018b;c)、使用领域鉴别器进行对抗性训练(Ganin等,2016;李等,2018d;阿尔伯克基等,2020a)、判别分析(Ghifary等,2016;Hu等,2019)和其他技术(Ghifary等,2015)。

其中,有几部作品(Zhao等人,2019年;约翰逊等人,2019年;Akuzawa等人,2019年)表明,该班级条件方法(Li等人,2018c;d;Ghifary等人,2016;胡等人,2019)优于那些加强特征边缘域不变性(Muandet等人,2013;Ganin等人,2016;李等人,2018b;阿尔伯克基等人,2020a,只要类标签的分布不同)。我们证明了类条件不变量也不足以推广到不可见的域。

2.2.Causality and domain generalization.

过去的研究已经证明了因果关系和可推广的预测因子之间的联系(Peters等人,2016年;克里斯蒂安森等人,2020年)。有研究表明因果推理对领域适应的应用(Gong等人,2016;海因策-德姆尔和梅因肖森,2019;马格里亚坎等人,2018;罗贾斯-卡鲁拉等人,2018)假设Y→→方向和其他工作(Arjov斯基等人,2019;彼得斯等人,2016)关于假设→的因果关系。我们的SCM模型通过引入Ytrue和标记的Y来统一这些流,并发展了域泛化的一个在两种解释下都有效的不变性条件。也许最接近我们的工作的是(Heinze-Deml &梅因肖森,2019),他们在单域数据集中使用对象概念来更好地泛化。我们将他们的SCM扩展到多域设置,并使用它来显示先前方法的不一致性。此外,虽然(Heinze-Deml &梅因肖森,2019)假设对象总是被观察到的,但我们还提供了一种未被观察到对象的算法。

2.3. Matching and Contrastive Loss.

提出了基于匹配的正则化器。(Motiian et al.,2017)提出了来自同一类的输入的匹配表示。(Dou et al.,2019)使用了一个对比(三重态)损失来规范ERM目标。与基于对比损失的正则化相比,我们的算法MatchDG分两个阶段进行,并学习一个独立于ERM目标的表示。这种迭代的两阶段算法具有经验上的好处,我们将在附录中展示出来。D.4.此外,我们还提出了一种理想的基于对象的对象观测匹配算法。

2.2. Other work.

实现领域泛化的其他方法包括元学习(Li等人,2018a;巴拉吉等人,2018年)、数据集增强(Volpi等人,2018年;尚卡尔等人,2018年)、参数分解(皮拉特拉等人,2020年;李等人,2017年),以及加强最优P(Y |Φ(x))的域不变性(Arjovsky等人,2019年;Ahuja等人,2020年)。我们将我们的算法与其中的一些算法进行了经验性的比较。

3、Insuffificiency of class-conditional invariance

3.1. A simple counter-example

3.2. An empirical study of class-conditional methods

我们如何确保一个模型学习稳定的、可推广的特征x2?我们转向上面的例子,其中需要的不变量是表示Φ(x)应该独立于给定稳定特征的域。我们应用这种直觉,并构建了一个模型,强制学习到的表示独立于给定x2的域。我们通过最小化来自共享相同板值的不同域的数据点的表示的`2-范数来实现这一点(第4.3节中的完美匹配方法的详细信息)。结果大幅提高:域外精度现在为78%。

在下一节中,我们将使用因果图形式化对稳定特征xc的条件反射的直觉,并介绍作为稳定特征代理的对象的概念。

4、A Causal View of Domain Generalization

4.1. Data-generating process

图2(a)显示了一个结构性因果模型(SCM),它描述了域泛化任务的数据生成过程。为了直观,考虑一项对物品类型进行分类或筛选疾病图像的任务。由于人类的可变性或通过设计(使用数据增强),数据生成过程为每个类生成不同的图像,有时为同一对象生成多个视图。这里每个视图可以看作是一个不同的域D,项目类型或医疗条件的标签为类Y,图像像素为特征x。同一项目或同一人的照片对应于一个共同的对象变量,用O表示。要创建图像,数据生成过程首先采样对象并查看视图(域),可能相互关联(以虚线箭头所示)。照片中的像素是由对象和视图,如图所示的两个输入箭头x。对象也对应于高级因果特性XC常见的任何图像相同的对象,反过来被人类用来标签类Y。我们称XC为因果特征,因为它们直接导致了Y类。

 上面的例子是典型的领域泛化问题;如图2(b)所示,类似于(Heinze-Deml &迈因肖森,2019)中的图。一般来说,可能不需要观察到每个输入x(i d)的底层对象。与依赖于对象的(因果关系)特征XC类似,我们为对象XA的依赖于领域的高级特征引入了一个节点。改变域可以被视为一种干预:对于每个观察到的x(i d),都有一组(可能未观察到的)反事实输入x(j d 0),其中d 6 = d 0,这样所有的输入都对应于同一个对象(因此共享相同的XC)。为了完整性,我们还展示了对象的真正未观察到的标签,这导致其生成为Ytrue(额外的动机因果图见附录)。就像对象O一样,Y可能与域相关联 D. 在(Heinze-Deml和梅因斯豪森,2019)中扩展模型,我们允许对象可以与Ytrue条件下的域相关联。正如我们将看到的,考虑对象节点之间的关系成为发展不变条件的关键部分。SCM对应于以下非参数方程。

其中,gxc,gxa,gx和h是一般的非参数函数。误差o与域d相关,而o、xa、x和y是相互独立的误差项,独立于所有其他变量。因此,类标签中的噪声是独立于域的。由于xc对同一对象的所有输入都是通用的,所以gxc是o的确定性函数。此外,SCM通过d-分离的概念,提供了所有数据分布P必须满足的条件独立条件(Suppl。B.2)和完美的地图假设(Pearl,2009)。

 4.2. Identifying the invariance condition

4.3. A “perfect-match” invariant

4.4. Past work: Learning common representation

5. MatchDG: Matching without objects

5.1. Two-phase method with iterative matches

Contrastive Loss.

Iterative matching.

The importance of using two phases.

5.2. MDG Hybrid

虽然MatchDG假设没有关于对象的信息,但可以很容易地扩充它,以合并关于已知对象的信息。例如,在计算机视觉中,一个标准的做法是通过执行旋转、水平翻转、颜色抖动等来增加数据。这些自增强为我们提供了对已知对象的访问,通过在Eq 3的损失中添加另一个正则化器,它可以在MatchDG阶段ii中包含完美匹配。我们将这种方法命名为MDGHybrid,并与MatchDG一起评估它,在这些数据集上我们可以执行自增强。

5. Conclusion


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zibuyu1226/article/details/130717908