模型 - 冻结特定层的参数 - 《机器学习 | 神经网络

终极方法代码实现
只训练 classifier 层

参考来源：
CSDN：pytorch 冻结模型中某几层的参数
 CSDN：pytorch 之冻结某层参数，即训练时不更新

首先，我们知道，深度学习网络中的参数是通过计算梯度，在反向传播进行更新的，从而能得到一个优秀的参数，但是有的时候，我们想固定其中的某些层的参数不参与反向传播。比如说，进行微调时，我们想固定已经加载预训练模型的参数部分，指向更新最后一层的分类器，这时应该怎么做呢。

首先定义如下的模型：

class Char3SeqModel(nn.Module):
    def __init__(self, char_sz, n_fac, n_h):
        super().__init__()
        self.em = nn.Embedding(char_sz, n_fac)
        self.fc1 = nn.Linear(n_fac, n_h)
        self.fc2 = nn.Linear(n_h, n_h)
        self.fc3 = nn.Linear(n_h, char_sz)
    def forward(self, ch1, ch2, ch3):
        # do something
        out = #....
        return out
model = Char3SeqModel(10000, 50, 25)

我们通过设置参数 param 的 requires_grad 属性为 False ，来冻结该层参数。当然这样还不够，我们要在定义优化器的时候，告诉优化器，哪些需要更新，那些不需要，这一步至关重要。

假如我们想要冻结 fc1 层，需要做如下操作：

model = Char3SeqModel()
# 这里是一般情况，共享层往往不止一层，所以做一个for循环
for para in model.fc1.parameters():
    para.requires_grad = False
# 假如真的只有一层也可以这样操作：
# model.fc1.weight.requires_grad = False

最后我们需要将需要优化的参数传入优化器，不需要传入的参数过滤掉，所以要用到 filter() 函数。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.1)

终极方法代码实现

终极方法代码实现：

from collections.abc import Iterable
def set_freeze_by_names(model, layer_names, freeze=True):
    if not isinstance(layer_names, Iterable):
        layer_names = [layer_names]
    for name, child in model.named_children():
        if name not in layer_names:
            continue
        for param in child.parameters():
            param.requires_grad = not freeze
def freeze_by_names(model, layer_names):
    set_freeze_by_names(model, layer_names, True)
def unfreeze_by_names(model, layer_names):
    set_freeze_by_names(model, layer_names, False)
def set_freeze_by_idxs(model, idxs, freeze=True):
    if not isinstance(idxs, Iterable):
        idxs = [idxs]
    num_child = len(list(model.children()))
    idxs = tuple(map(lambda idx: num_child + idx if idx < 0 else idx, idxs))
    for idx, child in enumerate(model.children()):
        if idx not in idxs:
            continue
        for param in child.parameters():
            param.requires_grad = not freeze
def freeze_by_idxs(model, idxs):
    set_freeze_by_idxs(model, idxs, True)
def unfreeze_by_idxs(model, idxs):
    set_freeze_by_idxs(model, idxs, False)

# 冻结第一层
freeze_by_idxs(model, 0)
# 冻结第一、二层
freeze_by_idxs(model, [0, 1])
#冻结倒数第一层
freeze_by_idxs(model, -1)
# 解冻第一层
unfreeze_by_idxs(model, 0)
# 解冻倒数第一层
unfreeze_by_idxs(model, -1)
# 冻结 em层
freeze_by_names(model, 'em')
# 冻结 fc1, fc3层
freeze_by_names(model, ('fc1', 'fc3'))
# 解冻em, fc1, fc3层
unfreeze_by_names(model, ('em', 'fc1', 'fc3'))

只训练 classifier 层

有的同学表示，我大部分层需要冻结，只有少部分层要训练，那这样一层一层的稍显麻烦，我们应该怎么做呢，还拿上面的模型举例，假设我的模型是按序定义的，则我只想训练 classifier 层，其余的统统冻结。
那么：

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d()
        self.conv2 = nn.Conv2d()
        self.fc1 = nn.Squential(
                                 nn.Linear(),
                                 nn.Linear(),
                                 ReLU(inplace=True),
                                )
        for param in self.parameters():
            param.requires_grad = False
        #这样for循环之前的参数都被冻结，其后的正常更新。
        self.classifier = nn.Linear()

当然同样不要忘了在定义优化器时过滤。