EWC
- Quadratic Penalty
- 解析
  - 拉普拉斯近似
  - Fisher 信息矩阵
MAS
SI
SSR

在连续学习的正则化方法中，构建Importance Matrix的方法有很大的影响力。其原理是对参数有关老任务部分进行约束更新。根据方法出现前后顺序，主要存在以下几种方法。

EWC

Kirkpatrick J, Pascanu R, Rabinowitz N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the national academy of sciences, 2017, 114(13): 3521-3526.

EWC 作为该类开创方法之一，从小鼠突触通过学习某类知识之后会一直保留的现象，提出Task-specific Synaptic Consolidation的解决方案。出发点是当前的神经网络过参数化严重，让模型中的个部分参数对应不同任务是可以满足的。

参数约束通过二次约束Quadratic Penalty实现，难点在于寻找哪些参数是对哪些任务重要。

Quadratic Penalty

监督学习模型的学习过程可以认为是求终身学习之Importance Matrix - 图2 的过程，根据贝叶斯公式可以得到

终身学习之Importance Matrix - 图3

其中，终身学习之Importance Matrix - 图4 可以由损失函数的相反数得到，即终身学习之Importance Matrix - 图5 。

假设终身学习之Importance Matrix - 图6 ，由两个独立的数据集构成，那么上式可以化为

终身学习之Importance Matrix - 图7

在连续学习中，如果是先学习任务A再学习任务B，可以认为终身学习之Importance Matrix - 图8 可以认为是之前任务学习的后验概率，是已知的。

为了衡量哪些参数对任务 A 重要，利用拉普拉斯近似，将该重要性的后验近似为一个高斯分布，均值为上一个任务学得的参数 终身学习之Importance Matrix - 图9 ，对角精度由费雪矩阵 终身学习之Importance Matrix - 图10 给定。

费雪矩阵的关键特性：

等价于loss的二阶导的局部最小值
容易计算，从一阶导求得
是半正定的

EWC的损失函数可以定义为

终身学习之Importance Matrix - 图11

EWC 采用 Fisher 矩阵近似参数的二阶导（海森矩阵）。

解析

根据最大化后验概率的目的，上式终身学习之Importance Matrix - 图12 可以化为目标函数：

终身学习之Importance Matrix - 图13

其中，终身学习之Importance Matrix - 图14 即参数对数据的条件概率，表现为损失的值终身学习之Importance Matrix - 图15 ，即最大化后验概率等价于，最小化损失函数；终身学习之Importance Matrix - 图16 则可以看作是任务A训练好的参数。

连续学习在训练任务B的时候，终身学习之Importance Matrix - 图17 认为是不可见的，因此，无法在训练的时候直接获得后验终身学习之Importance Matrix - 图18 。常用的近似方法如变分推断、MCMC、拉普拉斯（Laplace）近似之类的，论文用了拉普拉斯近似。

拉普拉斯近似

拉普拉斯近似采用一个高斯分布来近似终身学习之Importance Matrix - 图19 。假设终身学习之Importance Matrix - 图20 ，那么有
终身学习之Importance Matrix - 图21
上式中，终身学习之Importance Matrix - 图22 是参数变量，终身学习之Importance Matrix - 图23 是不可见的，如何让终身学习之Importance Matrix - 图24 的更新受到该高斯分布的约束。显然，对于任务A，终身学习之Importance Matrix - 图25 的期望是终身学习之Importance Matrix - 图26 ，在终身学习之Importance Matrix - 图27 处展开：

终身学习之Importance Matrix - 图28

因为终身学习之Importance Matrix - 图29 时终身学习之Importance Matrix - 图30 取最大值，可以认为其一阶导雅各比矩阵为0。又因为概率密度函数在一维空间上，因此有

终身学习之Importance Matrix - 图31

终身学习之Importance Matrix - 图32 代表了海森矩阵，在EWC中代表了重要性矩阵Importance Matrix，根据约等式可以推得

终身学习之Importance Matrix - 图33

那么上述优化问题可以化为

终身学习之Importance Matrix - 图34

终身学习之Importance Matrix - 图35 能直接算出来，但是这里参数终身学习之Importance Matrix - 图36 是终身学习之Importance Matrix - 图37 维向量，所以终身学习之Importance Matrix - 图38 是终身学习之Importance Matrix - 图39 的海森矩阵，计算的时间和空间复杂度都比较大。为了减小计算开销，论文把海森矩阵转成了 Fisher 信息矩阵。