四、卷积神经网络（Convolutional Neural Networks, CNN） - 《深度学习》

Receptive field：

感受野用来表示网络内部的不同神经元对原图像的感受范围的大小，或者说，convNets(cnn)每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。
神经元之所以无法对原始图像的所有信息进行感知，是因为在这些网络结构中普遍使用卷积层和pooling层，在层与层之间均为局部连接。
神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；相反，值越小则表示其所包含的特征越趋向局部和细节。因此感受野的值可以用来大致判断每一层的抽象层次。

Filter：
是一个tensor，去图片里抓取对应的形状

卷积层：
理解1：每个神经元只考虑一个Receptive field；含有不同Receptive field的神经元共享参数（即权重）。
理解2：每层有一个filter的集合，用来小范围侦测目标；每个filter扫过整张图片。

Pooling：
卷积之后的步骤，把图片缩放。目的：把影像变少，减少运算量。
方法：把filter所得的结果分成若干个mn的一组，每一组选出一个最大值（Max pooling），即完成了图片的缩放。
*注：Pooling不一定适合所有任务（例如：下围棋）

CNN不能处理影像放大、缩小或旋转的问题。例如：一只狗的图像放大后，CNN可能不能识别成功，因为放大后向量里的值都发生了变化。
key：使用Spatial Transformer Layer