图片自动裁剪调研

一，引言

图片自动裁剪用于从一张图片中裁剪出最合适的子图，子图具有更合理的布局，更美观的效果等。图片自动裁剪在飞猪潜在的应用场景包括自动裁剪从外源爬取过来的图片等。与自动裁剪相关的任务名称还包括图片智能裁剪，image retarget

二，方法

2.1 暴力搜索的方法

暴力搜索法[3]是比较早的研究思路，它通过滑动窗口的方式获取一系列的候选裁剪框，然后从中选择美学分数最高的，滑动窗口，暴力搜索所有的子图，耗时大。

2.2 基于显著图预处理

基于显著图的自动构图方法是最早期用于自动构图的方法，被称为 Attention-Based的方法。它基于一个假设，图像中最显著的区域是照片中最重要的部分，我们应该保留这个最重要的部分而裁剪其他部分。基于显著图的自动构图相关方法的差异主要在于如何获得最小外接矩形，典型的见文[5]。

这类方法的目标就是研究如何用最小的剪裁窗口使得注意力(图像显著特性)总和最大化[4]，注意力总和可以简单定义为图像所有像素值的和，它就是图中的有效信息。

[2]在检测出显著区域以后作为初始化的显著框，然后根据显著区域初始化框调整比例等得到一系列子图，用美学分给子图打分并得到得分最高的子图。

[9]是目前显著物体检测领域的SOTA，

2.3 基于强化学习的搜索法

候选框的选择本质上是一个搜索问题，除了减小搜索空间，所以也可以使用更加高效的搜索方法，比如A2RL框架[1]，使用强化学习更高效地搜索裁剪框。

2.4 其他方法

除此之外，还有一些别的方法，比如[6]提出了子图裁剪和子图美学评估网络，结合之后用于挑选出最佳子图。[8]使用弱监督和自监督的方式做图片的自动裁剪，论文中将裁剪的问题归为image retarget问题，像素通过映射，将图片映射为一个裁剪后的图像。

三，总结

暴力搜索可以搜索全部子图，但是耗时太大几乎无法使用，基于显著图只能框出显著区域的外接区域，对于飞猪的应用场景，使用基于强化学习的方法，外加一些规则应该是最好的解决方案。

参考

[1] Debang Li,[Huikai Wu, Junge Zhang, A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping, CVPR, 2017

[2] Wenguan Wang, Jianbing Shen, Deep Cropping via Attention Box Prediction and Aesthetics Assessment, ICCV, 2016

[3] Yi-Ling Chen, Jan Klopp, Min Sun, Learning to Compose with Professional Photographs on the Web

[4] Ardizzone E, Bruno A, Mazzola G, et al. Saliency Based Image Cropping[C]. international conference on image analysis and processing, 2013

[5] Chen J, Bai G, Liang S, et al. Automatic Image Cropping: A Computational Complexity Study[C] Computer Vision and Pattern Recognition

[6] Zijun Wei1, Jianming Zhang2, Xiaohui Shen2, Zhe Lin2, Radomır Mec, Good View Hunting: Learning Photo Composition from Dense View Pairs, CVPR, 2018

[8] Donghyeon Cho, Jinsun Park, Tae-Hyun Oh, Weakly- and Self-Supervised Learning for Content-Aware Deep Image Retargeting, ICCV, 2017

[9] Zhe Wu, Li Su, Qingming Huang, Cascaded Partial Decoder for Fast and Accurate Salient Object Detection, CVPR, 2019