image.png
    RPN:首先会把输出的特征图的每个点都做中心点,提前生成大小比例不同的框,称为anchor,对于每个anchor,都会生成两个分支,第一个为分类分支,判断这个anchor内有没有东西,并不是判断是猫还是狗。第二个分支是回归分支,判断anchor和真实框有多远。
    将RPN输出的anchor框做一定的处理,传入roi pooling,做第二阶段的工作。第二阶段同样有两个分支:分类和回归,这里的分类就要判断候选框里的物体是哪个类别的;回归分支是对预选框做进一步的微调。
    image.png
    image.png
    image.png
    image.png
    RPN要学习的东西:(1)anchor框是否包含物体,anchor和ground truth 的iou很大,就是包含东西,即正样本;负样本就是iou较小,不包含东西(2)anchor到真实框的偏移量。
    上图中的x,y指的是中心点的坐标。
    image.png
    注意回归分支中的p*,意思是回归分支只对正样本进行loss计算。

    image.png