Arjovsky M, Bottou L, Gulrajani I, et al. Invariant Risk Minimization[J]. arXiv: Machine Learning, 2019. 该文献为华为人工智能竞赛第一题的参考文献。 本文引入了不变风险最小化的方法(IRM),作为一种学习范例,用于估计多个分布之间的不变相关性。为了实现这一目标,IRM学习了一种数据的表达,使得在这种数据表达之上的最优分类器可以匹配所有的训练分布。通过理论和实验,我们展示了IRM学习到的不变性如何与控制数据的因果结构相关联,并实现了分布外的泛化。 我们考虑数据集 ,该数据集来自不同环境 。这些环境描述不同环境下测得的同一组随机变量。数据集 来自环境e,包含一些独立同分布的样本,分布为 。那么,我们的目标是使用这些多个数据集学习预测器 ,该模型可以很好的应用于相似环境 。也即,我们要最小化下式:其中 是环境e中的风险值。这里 包含了所有可能的实验条件,包括观测的和假设的。考虑下面这个结构模型:通过 预测 ,在环境e中,我们采用最小二乘预测 ,我们回归 ,得到 和 ;回归 ,得到 , ;得到 和 。使用 回归是我们的第一个不变相关性,也即该回归预测效果不依赖于环境e。相反,第二个和第三个回归的预测效果依赖环境的变化。这些变化的(虚假的)相关性不能很好的推广到测试环境中。但并不是所有的不变性都是我们所关心的,比如从空集特征到Y的回归是不变的,但却没有预测效果。 是唯一的在所有环境 中不变的预测规则。进一步,该预测也是跨环境的对目标变量取值的因果解释。换句话说,这对目标变量随输入的变化提供了一种准确的描述。这是令人信服的,因为不变性是一个可检验的量,我们可以通过它发现因果关系。我们将在第4节详细讨论不变性和因果性的关系。但是首先,如何学习得到不变性,因果的回归?我们先回顾现有技术的一些局限性: 第一,我们可以直接使用所有的训练数据进行学习,使用所有特征来最小化训练误差。这就是传统的Empirical Risk Minimization(ERM)方法。在这个例子中,如果训练环境具有很大的 ,那么ERM方法将赋予 一个很大的正系数,这就远离了不变性。 第二,我们可以最小化 ,一种鲁棒性的学习策略,其中 是一个环境基准。设置这些基准为0就表明最小化在不同环境中的最大误差。选择这些基准是为了防止对嘈杂的环境为主导的优化。例如,我们可以选择 ,来最小化不同环境间的最大解释方差。虽然很有价值,但这就等同于鲁棒性的学习会最小化环境训练错误加权平均值。即选择最优的 ,使得 最小化。但是对于混合训练环境具有很大的 ,会给 赋予较大参数,但是测试环境可能具有较小的 。 第三,我们可以采取一种自适应策略来估计在所有环境中具有相同分布的数据表达 。这对于上述例子是不可能的,因为 的分布在不同的环境中是不同的。这就说明了为什么技术匹配的特征分布优势会增加不变性的错误形式。 第四, 我们可以紧跟这种不变性因果预测技术。这些变量的子集用于回归每一个环境,在所有环境中都会产生相同的回归残差。匹配残差分布不适用于上述例子,因为Y的噪声随环境发生变化。 总之,对于这个简单的例子都很难找到不变的预测。为了解决这个问题,我们提出了IRM方法,这是一种学习范式,可以提取跨多个环境的非线性不变预测变量,从而实现OOD泛化。 用统计学的话讲,我们的目标就是学习不同训练环境中不变的相关性。对于预测问题,这就意味这需要找到一种数据表达,使得在该数据表达之上的最佳分类器在不同的环境中都相同。可按如下定义方式: 定义3:考虑一种数据表达 ,如果有一个分类函数 适用于所有环境,则可导出的跨环境 的不变预测器 ,也即对于任意的 ,都有 。 为什么上述定义等价于与目标变量的相关性稳定的学习特征?对于损失函数如均方误差和交叉熵,最优的分类器可以写为条件期望。一种数据表达 可以产生的跨环境不变预测当且仅当对于 的所有焦点h处,对于任意的 ,都有 。 我们认为不变性的概念与科学中常用的归纳法是相抵触的。实际上,一些科学发现都可以追溯到发现一些不同的但潜在的相关现象,一旦用正确的变量描述,它们似乎遵循相同精确的物理定律。严格遵守这些规则表明它们在更广泛的条件下仍有效,如果牛顿的苹果和星球遵循相同方程,那么引力就是一件事。 为了从经验数据中发现这些不变性,我们引入了IRM方法,不仅具有好的预测结果,还是跨环境 的不变预测器。从数学上,可转为为如下优化问题(IRM):这是一个有挑战性的两级优化问题,我们将其转化为另一个版本(IRMv1):其中 是整个不变预测器, 是一个标量和一个固定的虚拟分类器,梯度形式惩罚是用来衡量每个环境e中虚拟分类器的最优性, 是预测能力(ERM)和预测 不变性的平衡调节参数。 我们将(IRM)中的硬性约束转化为如下的惩罚性损失:其中函数 表示了 使得 达到最小化的程度, 是平衡预测能力和不变性的超参数。在实际应用中,我们希望 关于 和 是可微的。 下面我们考虑 为线性分类器这一特殊情况。当给定数据表达 ,我们可以由 写出:且我们希望这两个线性分类器的差异越小越好,即 。我们将该方法用到3.1中的实例中,令 , ,则c控制了这个数据表达多大程度上依赖 。我们做出不变性损失随c的变化图见图1,发现 在 处是不连续的,而当c趋于0而不等于0时,利用最小二乘法计算 的第二个量将趋于无穷,因此出现了图1中蓝线的情况。图1中黄线表明在最小二乘中添加强的正则化不能解决这一问题。 为了解决这些问题,我们将最小二乘求 中的矩阵求逆去除,并按如下方式计算不变性损失:按照这种方式,得到图1绿线所示的情况。可见 是平滑的(它是 和 的多项式函数)。并且,当且仅当 时, 。 我们通过 最小化选择出的 是不唯一的,实际上对于可逆映射 ,我们可以重写不变预测器为:这意味着我们可以任意选择非零 作为不变预测器。因此,我们可以将搜索限制在给定 的所有环境最优分类的数据表达上。即:当 时,对于线性 ,上式的解 将趋于(IRM)的解 。 前文我们提出 是一个有效的分类器选择,这种情况下只有一部分的数据起作用。我们通过给出线性不变预测器的完整特征来说明这个悖论。下面的理论中的矩阵 ,为数据特征函数,向量 为最优分类器, 为预测向量 。 定理4:对于所有 ,令 为损失函数。一个向量 可以写为 ,其中 对于所有环境e,使得 同时达到最小,当且仅当对于所有环境e, 。所以,任何线性不变预测器可以被分解为不同秩的线性表达。特别的,我们研究 的情况,则有:后文将证明,不管我们是否限制IRM搜索秩为1的 ,这种形式的分解将会引入高秩的数据表达矩阵,且是分布外泛化的关键。 3.2.4通过加入不变性损失和均方误差得到最终的IRMv1模型,可以写出一般的风险方程 ,其中 是一种可能的非线性数据表达。这种表达在任何损失下都最优匹配于常值分类器 。如果 返回的目标空间 具有多个输出,我们将它们全部乘以标量分类器 。 当使用小批量梯度下降估计目标(IRMv1)时,可以得到平方估计范数的无偏估计:其中 和 是环境e中的两个大小为b的随机小批量样本, 为损失函数,PyTorch例子见附件D。 假设不变最优分类器w是线性的有多严格?一种说法是只要给予足够灵活的数据表达 ,就可以将不变预测器写为 。然而,强制执行线性不变性可能使得非不变预测惩罚 等于0。例如,空数据表达 允许任何w为最优值。但是,当 时,这样产生的预测器 不是不变的。ERM项会丢弃这种无效的预测器。通常,最小化ERM项 将驱动 以至于将 在所有预测器中达到最优,尽管 是线性的。 针对这个研究,我们也为未来的的研究提出了几个问题。是否存在不会被ERM和IRM丢弃的非不变预测器?如果将w放宽到可从非线性中选取将有什么好处?我们如何构造非线性不变量不变性的惩罚函数 ? 新提出的IRM方法使得在训练环境 中具有更低的误差和不变特性。什么时候这些条件可以将不变性推广到所有环境中呢?更重要的时,什么时候这些条件可以使得在全部环境 中具有更低的误差,并导致分布外的泛化呢?并且在一个更基础的水平,统计不变性和分布外的泛化如何与因果理论中的概念相关? 到目前为止,我们已经忽略了如何将不同环境应该与分布外的泛化相联系。这个问题的答案要追溯到因果理论。我们假设来自所有环境中的数据共享相同的基础结构方程模型。 定义5:控制生成向量 的结构方程模型 是一组结构方程: 其中 被称为 的双亲, 是独立于噪声的随机变量。如果 ,可记为“ causes ”。我们可以据此来绘制因果图,每个 看作节点,如果 ,则就有从 到 的一条边。我们假设该图是无环的。 根据因果图的拓扑顺序,运行结构方程 ,我们可以从观测分布 的得到一些样本。同样,我们还可以以不同的方式操纵(干预)一个唯一的SEM,以e为指标,来得到不同但相关的 。 定义6:考虑一个 。用干预e作用到 上(包括替换一个或几个方程)以得到干预 ,结构方程为: ,若 或者 ,则变量 是一种干预。 类似的,通过运行干预 的结构方程,我们可以从干预分布 中得到一些样本。例如我们可以考虑在例1中干预 ,控制它为趋于0的常数,因此将 的结构方程替换为 。每个干预e都产生了一个干预分布为 的新环境e。有效的干预e不会损坏太多的目标变量Y的信息,从而形成了大环境 。 先前的工作考虑的是有效的干预不会改变Y的结构方程,因为对方程的任意干预都不可能预测。在这个工作中,我们也允许改变Y的噪声,因为在真实问题中会出现变化的噪声水平,这些并不会影响最优的预测规则。我们将其形式化如下: 定义7:考虑一个 控制随机向量 ,以及基于X预测Y的学习目标。那么,所有的环境集合 由干预产生的所有干预分布 得到。只要(i)因果图是无环的,(ii) ,(iii) 保持有限方差,则该干预 是有效的。 如果在定义 中考虑环境特定的基线,条件(iii)可以去除,与哪些出现在鲁棒性学习目标 相似。我们留下一些分布外泛化的其它量化作为以后的工作。 先前定义了因果性和不变性之间建立的基础联系。另外,可以证明一个预测 是跨环境 的不变预测,当且仅当它能达到最佳的 ,当且仅当它只使用Y的直接因果双亲来预测,也即, 。本节的其它部分将根据这些思想去展示如何利用跨环境的不变性实现所有环境中的分布外的泛化。 IRM的目的就是建立一种可以产生out-of-distribution的预测,也即,实现在整个环境 中具有更低的误差。为此,IRM致力于在环境 中同时减少误差以及保证不变性。这两者之间的桥梁由如下两步实现:第一步,可以证明 环境中更低的误差和不变性将导致 中更低的误差。这是因为,一旦估算出在环境 中数据表达 产生的不变预测 , 的误差将控制在标准误差界中。第二步,我们测试其余条件使得在环境 中具有更低的误差,即在什么条件下,训练环境 中的不变性意味着所有环境 中的不变性? 对于线性IRM,我们回答这个问题的起点是不变因果预测理论(ICP)。这里,作者(书40)证明了只要数据(i)是高斯分布的,(ii)满足线性的SEM,(iii)从特定类型的干预中得到,那么ICP重获目标的不变性。定理9表明即使上述三个假设都不成立,IRM也能学到这种不变性。特别的,我们容许非高斯数据,将观测结果作为稳定和虚假相关性的变量的线性变换来处理。 定理的设定如下。 有一个不变相关性变量 ,它是一个未观察的潜在变量,具有线性关系为 , 独立于 。我们能观测到的是 ,它是 和另一个与 和 任意相关的变量 的干扰组合。简单的使用 回归将不计后果的利用了 (因为它给出了关于 和 额外的虚假的信息)。为了实现分布外的泛化,数据表达必须丢弃 且保留 。 在展示定理9之前,我们需要先做一些假设。为了学习有用的不变性,必须要求训练环境具有一定程度的多样性。一方面,从大数据集中随机抽取两个子集样本并不会导致环境的多样性,因为这两个子集服从相同的分布。另一方面,以任意变量为条件将大数据集分割可以产生多样性的环境,但是可能会引入虚假相关性且破坏我们需要的不变性。因此,我们需要包含足够多样性且满足基本不变性的训练环境。我们将这种多样性需求形式化为需要环境在linear general position。 假设8:训练环境 在linear general position的程度为r, , ,且对于所有的非零 :直观上,这种linear general position的假设限制了训练环境共线性的程度。每个处在linear general position的新环境都将其不变解空间减少一个自由度。幸运的是,理论10表明不满足一个linear general position的叉积 集合为0。使用这种linear general position的假设,我们通过IRM学习的不变性可以从训练环境转化到全部环境。 下面这个定理表明,如果在 中找到一个秩为r的数据表达 导出的不变预测 ,且 在linear general position的程度为r,那么 将是整个环境