显著性目标检测调研

一,背景

显著性目标检测是模拟人的视觉系统,针对一幅图片检测出人眼关注的区域,简单描述就是一个二分类的语义分割模型。有很多应用比如图像传输与压缩(优先保证显著区域),判定为显著区域等等。

二,方法

在深度学习占有绝对优势之前,显著区域检测已经有了很多方法,传统显著性目标检测主要利用直观感觉或者启发式经验,如利用色度比较,背景比较,边界点检测等人工提取特征的方法,但是这类方法需要复杂的经验,以及比较耗时。

2.1 基于边缘/语义增强的显著目标检测

深度网络的低层特征能更好的表征物体结构,边缘,高层特征能更好的表征语义信息,因此很多研究通过对低层特征操作来增强显著区域边缘,通过操作高层特征来获取更丰富的语义特征。

2.1.1基于边缘

[1]通过提取低层特征,最后与高层特征融合,达到边缘分割更好的效果,该论文对颜色及其分布和滤波器响应位置等低层特征的特征距离进行编码,生成低阶距离图一获得良好的边界检测效果。

[2]构建了一种核化子空间排序模型,将高维特征降低维度,通过高低维度来检测显著物体边缘,该方法通过编码低层特征的距离来定为显著物体的边缘。

为了进一步解决显著目标检测的边缘模糊的问题,很多文章通过对低层特征做一些操作来达到这个目的,Li等人在[3]中提出DCL(deep contrast learning)算法,该方法提出分段空间池流模拟不连续的显著目标边界,解决显著目标边界模糊的问题。[4]提出DSS(deeply supervised salient)算法,该算法是在HED(holistically-nested edge detection)体系结构中加入具有跳跃结构的短连接,使网络结构中每一层都有更丰富的多尺度信息。

除此之外,还有一些增强边界检测的角度是直接检测显著物体的边缘,[5]提出了一个能识别边界的损失函数,通过这个损失函数可以识别显著物体的边界从而得出更好的显著物体边界。[6]提出了一个效果更好的,新的网络用于检测边界,同时提出了一个新的损失函数,该函数融合了BCE,SSIM, IoU等损失函数,得出了更好的边界检测效果。

2.1.2基于语义增强

[7]是2016年的文章,神经网络处于爆发的时候,作者通过全卷积网络来提取高层语义信息来定为物体的位置,类别等信息,通过解决boundbox问题来解决显著物体定位的问题。[8]提出了CPD算法,引入空间注意力机制,提出了比较新的语义编码解码网络结构,同时融合了网络的多尺度,最后达到了显著性检测的SOTA结果。[9]提出了PoolNet, 主要创新在于提出了池化金字塔,在U-Net的顶部加入池化金字塔操作,将池化金字塔的特征依次融合到每个尺度的特征中用于和显著检测的ground-truth做loss。除此之外,一些研究者还通过引入注意力机制来检测显著性区域。[10]为每个像素生成注意力图,然后通过注意力图有选选择的保留显著区域,最后将注意力图与U-net的特征结合。Chen 等人在[11]提出的 RAS(reverse attention salient)算法,根据逆向注意提出了一个自 上而下的边训练边输出的剩余学习方式,实现对最深层语义信息的增强。

2.1.3 基于边界+语义增强的显著性目标检测方法

[12]提出了amulet算法,该算法通过卷积的尺度,将特征映射到不同的分辨率,然后通过聚合多个尺度的特征获得同时包含边缘信息和语义信息的显著图,2017年的文章,这么说有点牵强,多尺度融合现在已经是标准配置,不知道怎么中的ICCV。[13]提出BDMPM算法,该算法的创新之处在于通过门控函数来控制消息的传递,双向消息消息传递结构可以同时对语义信息和空间信息进行编解码从而检测出显著的目标。

此外还有一些文章对抽取的高低层特征同使用特征金字塔,实现对图像边缘和语义的同时增强。[14]提出了SRM(stagewise refinement model)算法,该方法先使用深度网络得到一个粗略的显著图,然后在另外一个stage重新输出图片,对该分支使用特征金字塔多尺度池化,然后上采样并与第一个阶段的特征融合,最后得到显著图。[15]提出PAGE(pyramid attention edge)算法,该算法首先提出了一个金字塔注意力结构,提取多尺度特征,并与未经过金字塔结构的特征融合而达到提取语义信息,同时提出了一个salient edge网络结构,用于解决在特征被kernal平滑掉边缘的问题。[16]提出PFA算法,该算法通过对低层与高层不同的处理最后融合来得到更好的结果。对于高层特征通过内容感知特征金字塔(context-aware pyramid feature extraction)来提取内容信息,然后通过通过注意力模块加强语义信息。对于低层特征采用空间注意力机制(SA)获取显著边缘。

2.2 基于全局/局部结合的显著性目标检测

[17]提出了DHSNET,该方法首先利用全局对比度,对象性,和紧凑性等全局信息得到一个显著图,然后采用层次递归神经网络利用局部上下文信息对显著性图进一步增强。[18]提出GRL算法,该方法采用递归方式利用加权响应图提取上下文信息定位显著 性目标,然后对局部边界进行细化以获得更加清晰 的边界。虽然递归方式取得了一定的效果,但是研 究发现递归操作非常耗时耗力。[19]提出NLDF方法,该方法设计了一个4x5的主干网络,用低层多分辨率特征检测边缘,高层检测语义,最后融合起来得到显著性图。[20]提出PAGR算法,该网络是一个渐进注意引导递归网络,对提取的全局/局部信息进一步加强,得到更好的显著目标检测效果。

2.3 基于辅助网络的显著性目标检测

基于辅助网络的显著性目标检测是指采用其他 领域已有模型作为辅助网络来提升显著性目标检测

性能。[21]提出的 MDF(multiscale deep features) 算法使用预先训练的图像分类模型来产生分级的显著性图。[22]提出的C2S-Ne(t contourtocontour salient network)算法将深度轮廓检测模型自动转换为显著性目标检测模型。[23]提出的CapSal算法将字幕网络(image captioning network,ICN)作为 辅助语义任务来提高复杂场景中的显著目标检测性能。[24]提出的MLSLNe(t mutual learning super- vised learning network)算法以一种交互方式让显著性目标检测和前景轮廓检测交替进行来得到显著性图。

三,评价指标

F-measure

ground-truth的二值图为G, 显著目标图谱二值化为M,显著目标图谱二值化的阈值为$T=\frac{2}{WH}\sum^{W}{x=1}\sum^H{y=1}S(x,y)$

准确率: $precision=\frac{G\bigcap M}{M}$

召回率:$recall=\frac{G \bigcap M}{G}$

计算F-measure: $F=\frac{(1+\beta ^2)precision*recall}{\beta^2 precesion + recall}$, 一般$\beta $设置为0.3

通常每一对P-R都可以得到一个F,取最大的作为$F-max$, 取均值作为$F-mean$

PR曲线

计算PR的方式如F-measure,但是通过预测的显著图二值化M的过程中,可以去不同的阈值,0-255共255总可能,分别对应不同的PR值,这样总共有255对PR值,以P为横轴以R为纵轴做出曲线,面积越大代表模型越好

MAE

MAE是计算模型输出的显著性图与ground-truth之间的平均绝对误差,首先将两者二值化,然后用下面的公式计算

$error = \sum^W_{x=1}\sum^H_{y=1}(y_i-\hat y_i)$

四,数据集

  1. ECSSD

    下载地址:http://www.cse.cuhk.edu.hk/leojia/projects/hsaliency/dataset.html

  2. Pascal-s

  3. DUTS, 是目前最大的显著性数据集,通常用于训练,分为训练集和测试集

  4. SOD

  5. DUT-OMRON

参考https://blog.csdn.net/studyeboy/article/details/102383922下载

五, 参考

[1] Gayoung Lee, Yu-Wing Tai, Junmo Kim, Deep Saliency with Encoded Low level Distance Map and High Level Features, CVPR, 2017

[2] Tiantian Wang,Lihe Zhang,Huchuan Lu,Kernelized Subspace Ranking for Saliency Detection,ECCV, 2016

[3] LI G B, YU Y Z, Deep contrast learning for salient object detection, CVPR, 2016

[4] HOU Q B, CHENG M M, HU X W, Deeply super- vised salient object detection with short connections, IEEE Transactions on Pattern Analysis and Machine Intelli- gence, 2019

[5] Mengyang Feng, Huchuan Lu, Errui Ding, Attentive Feedback Network for Boundary-Aware Salient Object Detection, CVPR, 2019

[6] Xuebin Qin, Zichen Zhang, Chenyang Huang, BASNet: Boundary-Aware Salient Object Detection, CVPR, 2019

[7] Jifeng Dai, Yi Li, Kaiming He, R-FCN: Object Detection via Region-based Fully Convolutional Networks, NIPS, 2016

[8] Zhe Wu, Li Su, Qingming Huang, Cascaded Partial Decoder for Fast and Accurate Salient Object Detection, CVPR, 2019

[9] Jiang-Jiang Liu, Qibin Hou, Ming-Ming Cheng, A Simple Pooling-Based Design for Real-Time Salient Object Detection, CVPR, 2019

[10]Nian Liu, Junwei Han, Ming-Hsuan Yang, PiCANet: Learning Pixel-wise Contextual Attention for Saliency Detection, CVPR, 2017

[11] Shuhan Chen, Xiuli Tan, Ben Wang, Reverse Attention for Salient Object Detection, ECCV, 2018

[12] Pingping Zhang, Dong Wang, Huchuan Lu, Amulet: Aggregating Multi-level Convolutional Features for Salient Object Detection, ICCV, 2017

[13] Lu Zhang, Ju Dai, Huchuan Lu, You He, A Bi-directional Message Passing Model for Salient Object Detection, CVPR, 2018

[14] Tiantian Wang, Ali Borji, Lihe Zhang, A Stagewise Refinement Model for Detecting Salient Objects in Images, ICCV, 2017

[15] Wenguan Wang, Shuyang Zhao, Jianbing Shen, Salient Object Detection with Pyramid Attention and Salient Edges, CVPR, 2019

[16] Ting Zhao, Xiangqian Wu, Pyramid Feature Attention Network for Saliency detection, CVPR, 2019

[17] Nian Liu, Junwei Han, DHSNet: Deep Hierarchical Saliency Network for Salient Object Detection, CVPR, 2016

[18] Tiantian Wang, Lihe Zhang, Shuo Wang, Detect Globally, Refine Locally: A Novel Approach to Saliency Detection, CVPR, 2018

[19] Zhiming Luo, Akshaya Mishra, Andrew Achkar, Non-Local Deep Features for Salient Object Detection, CVPR, 2017

[20] Xiaoning Zhang, Tiantian Wang, Jinqing Qi, Progressive Attention Guided Recurrent Network for Salient Object Detection, CVPR, 2018

[21] Guanbin Li, Yizhou Yu, Visual Saliency Based on Multiscale Deep Features, CVPR, 2015

[22] Xin Li, Fan Yang, Hong Cheng, Contour Knowledge Transfer for Salient Object Detection, ECCV, 2018

[23] Lu Zhang, Jianming Zhang, Zhe Lin, CapSal: Leveraging Captioning to Boost Semantics for Salient Object Detection, CVPR, 2019

[24] Runmin Wu, Mengyang Feng, Wenlong Guan, A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision, CVPR, 2019

数据集下载参考:https://blog.csdn.net/wanyq07/article/details/75268430