原理
conver layer
原图resize到800x600, Conv layer出来(50x38x256)的输出
RPN
从conv layer出来后每一个像素点配9个anchor;上面的分之经过1x1卷积形成50x38x18的张量,channel维度上每两个点代表一个anchor,分表表示前景与背景;
下一个分支经过1x1卷积形成50x38x36的张量,channel维度上每四个点代表一个anchor,用来回归位置的准确性,输出的anchor是(x,y,w,h), GT是($x_a,y_a,w_a,h_a$),通过线性映射使得两者比较接近,需要训练如下参数
$$t_x=(x-x_a)/w_a, ty=(y-y_a)/h_a, t_w=log(w/w_a), th=log(h/h_a)$$, 每一个anchor的位置都有这样的一个线性回归的参数需要学习
Proposal
选择softmax出来分数比较高的,处理位置回归,得到比较靠谱的框
Roi Pooling
从rpn选出来一些框,该框对应到共享卷积输出,将对应的位置分成若干等分(文中是7x7),每一个等分中取max,得到一个channel切片的输出,将所有切片堆叠起来输入到下一个卷积输入
faster-rcnn
bound-box回归
结合前面rpn推荐出来的框,再次预测推荐框和GT的偏移量
classification
将共享卷积中对应rpn输出的7x7的特征输入fc得到softmax后的特征进行分类,分真实目标类别(voc20类)
anchor
从conv layer出来后每一个像素点配9个anchor,三个尺度(0.5, 1, 2),三个大小(128, 256, 512),rpn阶段和faste-rcnn阶段预测的值作用于这些anchor得到真正的完整的预测值,具体的是在rpn阶段通过缩放尺度和平移将anchor移动到和GT差不多的位置,faste-rcnn阶段再做一次
训练rpn网络
$p_i$是rpn阶段为每个anchor预测的概率值,$p_i^$是该anchor是GT的概率,计算的方法是如果该anchor和GT交并比大于0.7则是1,小于0.3则是0,介于两者之间的anchor不参与计算loss;$t_i$是rpn阶段从anchor到GT的尺度变换的预测值,$t_$是从anchor到GT的标准值。分类loss使用交叉熵损失函数,bbox回归使用smooth_l1 loss。
训练fast-rcnn
roi_pooling后接fc,一路通过softmax做类别分类,另一路对anchor回归,将anchor平移缩放到GT的位置