从ResNet到DenseNet
- 过渡层

从ResNet到DenseNet

ResNet和DenseNet的关键区别在于，DenseNet输出是连接（用图中的[,]表示）而不是如ResNet的简单相加。因此，在应用越来越复杂的函数序列后，我们执行从x到其展开式的映射：
DenseNet - 图2

最后，将这些展开式结合到多层感知机中，再次减少特征的数量。实现起来非常简单：我们不需要添加术语，而是将它们连接起来。 DenseNet这个名字由变量之间的“稠密连接”而得来，最后一层与之前的所有层紧密相连。

稠密网络主要由2部分构成：稠密块（dense block）和过渡层（transition layer）。前者定义如何连接输入和输出，而后者则控制通道数量，使其不会太复杂

import torch
from torch import nn
def conv_block(input_channels, num_channels):
    return nn.Sequential(
                        nn.BatchNorm2d(input_channels),
                        nn.ReLU(),
                        nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1))

一个稠密块由多个卷积块组成，每个卷积块使用相同数量的输出通道。
然而，在前向传播中，我们将每个卷积块的输入和输出在通道维度上连结

class DenseBlock(nn.Module):
    def __init__(self, num_convs, input_channels, num_channels):
        super(DenseBlock, self).__init__()
        layer = []
        for i in range(num_convs):
            layer.append(conv_block(num_channels * i + input_channels, num_channels))
        self.net = nn.Sequential(*layer)
    def forward(self,X):
        for blk in self.net:
            Y = blk(X)
            X = torch.cat((X,Y), dim=1)
        return X

过渡层

由于每个稠密块都会带来通道数的增加，使用过多则会过于复杂化模型，而过渡层可以用来控制模型复杂度，它通过1x1卷积来减小通道数，并使用步幅为2的池化来进一步降低模型复杂度

def transition_block(input_channels, num_channels):
    return nn.Sequential(
                        nn.BatchNorm2d(input_channels),
                        nn.ReLU(),
                        nn.Conv2d(input_channels, num_channels, kernel_size=1),
                        nn.AvgPool2d(kernel_size=2, stride=2))