mask-rcnn在faster-rcnn基础上修改而来,网络结构图如下
roi-align
roi-pooling:
roi-pooling有两个地方发生精度损失,一个找出感兴趣区域后经过32倍下采样取整的精度损失,如上图的rpn阶段找出一个665*665的框,映射到下采样过的特征图上变成20*20,另一个地方是对roi区域变成7*7对时候采取的一个取整,先将roi变成49个小区域,每个小区域都是取整过的,有精度损失
roi-align:
roi-align有针对上述两处取整做了改进,第一次rpn出来的框不取整,带上小数,直接对带小数的roi区域划分成7*7的网格,这时候这个7*7会把特征图不完整的分割,解决办法是采用插值的方式
mask分支
假如mask分支输出K*m*n大小的特征图,其中K是物体类别可能的数量,m和n是特征的宽和高,一共有K个通道,每个通道都是sigmoid后的二值mask,代表是该类别的概率,如果是概率会接近1
公共特征出来后进入mask分支,对整图做上采样,采样到和输入一样大大小的宽和高,一共K个通道,然后对每个像素对每个类别做二值推理,判断其是否是某个类别