美学综述 | 黄汉卿

1 引言

图片美学(Image Aesthetic Assessment)评价是一个重要的课题，评价图片的质量美学在很多方面有广泛的应用，如在视频网站视频封面筛选，图片检索网站图片排序，视频失真等等。图片美学的主要目标是要从感官上区分好看与不好看，转化为计算机可表达的量则为美学分，美学级别分类等等。

图片美学的研究任务可以分为美学图片分类，美学评分，美学分布，美学因素，美学描述；美学分类是对图片质量高低做分类，如质量高，质量中，质量低；美学评分为给图片打分，美感分布则给图片一个美学分的分布；美学因素是评价图片某个具体因素的得分，如图片色彩的评分；美感描述为用语言评价该图的美学情况。

图片美学主要由模糊，噪声，色彩，失焦，曝光，清晰度，EXIF(Exchangeable Information File)参数，以及属性和内容决定，属性如管线，色彩，主题突出三分法则等，内容则为是否自然景观，是否包含人物，动物，天空，拥挤与否。

美学评价可以分为主观评价和客观评价，目前该方向的研究主要集中于客观评价。实现方法可以三类：手工特征方法，通用图像特征方法和基于学习的特征三种方法，但是由于美学更偏主观评价，且内容更丰富，基于特征学习的方法效果具有绝对优势。

2 方法

图片美学被广泛研究，前人的研究方法主要包括手工提取图片美学特征，使用图片通用特征，以及使用DNN提取图片美学特征的三大类方法。手工提取的特征主要包括色彩，构图，清晰度等通常意义的特征，通用特征指fisher vector,SIFT等特征。

2.1 hand-carfted feature based

Naila Murray等人在[2]中提出了一个广泛引用且非常重要的美学数据集:AVA,随后它使用了基于SVM的方法针对AVA的众多标注进行美学分类实验；Luca Marchesotti在[6]中仔细分析了AVA数据集，通过手工提取图片特征，然后通过传统机器学习方法构造了3个应用：图片分类，回归美学分，图片检索；Jun-Tae Lee等人在[12]中通过规则检测图片几何特征(如是否对称，是否水平等)和内容(如是否有天空等)来判断图片是否优美；[1],[21],[22],[23], [24], [25]通过手工提取图片属性，内容等特征，通过规则或者接传统机器学习方法来判断美学-接SVM进行美学分类，接SVR美学回归。

[3]通过手工提取图片特征，然后将得到的特征输入SVM进行分类，这个应该是首次使用rank的思路来训练美学分，作者在文中做了很多数据均衡的工作；AADB应该借鉴的这篇文章的思路，该文结合了图片美学标签和图片内容标签，使用了rank的损失函数，训练出分类的网络，质量高，质量一般，质量低。

2.2 Generic image feature based

使用通用的图片特征，如将fisher vector, SIFT等特征应用于图片美学评分[26][27][35]，以及将bag-of-visual-words[28]应用于图片美学评分，图片通用特征(如SIFT,Fisher Vector等)本来是用于图像识别的，但是这些特征也能帮助美学打分。

2.3 Learning feature based

基于深度学习的众多方法已经应用于解决该问题，他们可以归纳为如下维度：从网络结构的设计角度，从不同美学任务角度，从不同网络训练方式角度，此外还有一些方法针对特定的条件，如针对有属性/语义的数据而提出有效的解决办法。

2.3.1 网络结构

针对该问题，目前很多工作聚焦在修改网络上以获得更好的结果，他们可以分为4类，第一种是应用空间池化，这么做的好处是可以解决任意大小的输入，第二种是在网络中使用注意力机制，第三种是使用多输入，多子网络，第四种是使用孪生网络，通过排序解决美学分回归排序等问题。

2.3.1.1 spacial pool [9][30]

神经网络一般采用固定尺寸输入，为了适应这种需求，输入图像需要通过裁剪，缩放或填充进行转换，这往往会损坏图像的构图，降低图像分辨率，或导致图像失真，从而损害原始图像的美感。[9]提出了一个composition-preserving的方法，它直接从原始输入图像中学习美学特征，而不需要任何图像转换。具体来说，该方法在常规的卷积层和池化层之上增加了一个自适应的空间池化层来直接处理原始大小和长宽比的输入图像，类似faster-rcnn中的roi-pooling。为了能够进行多尺度的特征提取，提出了Multi-Net Adaptive Spatial Pooling ConvNet架构，该架构由多个具有不同自适应空间池化大小的子网络组成，另外，还利用基于场景的聚合层来有效地结合多个子网络的预测结果。

[30]针对网络通常需要将输入图片处理后在输入，这通常会有信息损失，本文通过提出的的MLSP模块，将不同尺寸，不同感受野的特征结合在一起，从而适应高分辨率输入，解决不固定输入的问题，提升准确率的同时降低参数数量，计算耗时。具体来说为将中间特征层resize到固定的尺寸。

2.3.1.2 attention 机制 [20][18][33]

[20]针对 patch 的融合方法进行改进。之前的 patch 融合操作都是采用了 max、min 或者 sort 等操作进行融合，而这篇论文在融合多patch基础上加入了空间注意力机制(Spatial Attention Meachine) 来提升算法性能。Shaolin Su等人在[18]提出了一个新的网络来感知图片的局部信息和内容，其中包含了注意力机制，来提升图片的质量分数，通过深浅层次网络感知整体与局部，通过额外模块学习图片的内容，最后将他们综合起来。

[33]在网络结构中也使用了空间注意力模块来提升性能。

2.3.1.3 Multi column & Multi patch [5][7][9][20][11]

为了能同时获得全局美学特征和局部美学特征，多路网络的方法应运而生。[7][9]等文章通过随机裁剪多个patch，以及resize全图一并输入到网络中，从而学习到局部与全局美学。[5]通过尝试多种输入，最后得出结论，随机裁剪，resize以及结合风格的多coloum的效果最好。

2.3.1.4 孪生网络[8][13][16]

Kong Su等人在[8]中提出了一个双路输入的美学回归/分类的孪生网络结构，双路输出到一个对比损失函数，通过对比损失函数控制模型对图片打分，最后单路模型获取美学综合分，美学属性分。

Keunsoo Ko等人在[13]提出两两对比的方法来对测试数据集图片排序，能对数据集的所有数据排序，缺点为不能给出美学分，且计算量庞大。

Jun-Tae Lee等人在[16]中提出了通过孪生网络来解决三个问题：美学分类，美学综合分，个性化的美学分，亮点在于通过结构化矩阵统一网络输出和最终的任务输出。

2.3.2 美学任务

按照美学研究任务，研究可以细分为美学质量级别分类，美学分数回归，美学分数分布，美学个性化，针对不同的研究，有相应的解决方法

2.3.2.1 美学质量级别分类/回归 [2][3][8][8][9][16][30]

美学质量级别分类是研究得相对最为透彻也是最多的，[2][3]将美学质量定义高，低两类从而输出二分类结果。[8]等文章用连续的美学分设置阈值将分数转化为类别，也获得的当时最好的分类结果。

将图片美学定义为0-1之间的小数，从而把美学转化为回归问题，[8][9][16][30]都输出了图片美学分结果。

2.3.2.2 美学分布 [14][29]

不同于美学质量级别分类/回归，美学分布尝试输出美学分布，这样更接近于ground-truth, 因为标注的时候通常是很多人标注同一张图片，美学分也是一个分布。

[14]通过神经网络的方法对图片质量进行评级，对神经网络最后一层修改为评级为10个等级的输出，针对一张图片，它的输出是1-10的十个质量分的概率分布，而不是质量高低的分类或者一个浮点型的回归的美学分。

训练的时候同多分类一样，损失函数使用交叉熵损失，但是针对所有类别都做$p_ilog{\hat p_i}$,针对一个样本，10分类的损失函数为$\sum_{i=1}^N -p_i log{\hat p_i}$。[29]通过jensen-shannon散度计算美学分布。

2.3.2.3 美学个性化 [10][16]

审美是个主观问题，因而每个人都会有不同的看法。

[10]通过在通用数据基础上，加入个人偏好的美学数据集通过微调的方式得到个人倾向的美学分。[16]通过对比的方式用ground-truth来获得测试图片的得分，加入个人的偏好数据集调整综合分。

2.3.3 训练方式

从网络训练方式上，可以分为全监督的学习方法，无监督的学习方法，以及基于对抗网络的方法。

2.3.3.1 全监督 [8][30][17]

基于CNN的大部分实现方法都是基于全监督，如[8][30]。全监督是目前主流的计算机视觉任务的实现方法，模型通过数据驱动的方式，学习数据中的特征。

2.3.3.2 对抗网络 [31]

生成网络是深度学习中一个新兴且重要的分支，最近也有人把生成网络的思想用于美学分相关任务。[31]设计了一个对抗网络，美学分回归网络作为生成网络(G)，区分网络(D)用来区分是label和ground-truth。

2.3.3.3 无监督 [19]

美学由于其主观性，通常需要多人标注取平均，这更加加大了数据获取的难度，因而无监督学习应用前景可观。[19]通过无监督的方式学习美学分数，减少了数据标注的工作，不过该方法的效果仍然比不上有监督学习的效果，且该论文基于分类比较结果。

2.3.4 其他

此外还有一些方法针对特定的条件，如针对有属性/语义的数据而提出有效的解决办法。

2.3.4.1 attribute/semantics-aware model [11][31][10][15][17][18][8]

高层语义能用于提高美学评分，通常我们认为好的属性(如色彩鲜艳)和美学分高保持一致。

[11]提出了一种A-lamp CNN的架构的计算美学评估模型，其亮点在于同时兼顾了图片的细节评估和整体的评估，本文有两个亮点，其核心思想是更有效地最大化输入信息。通过专门挑选对图像美学影响较大的patch来实现这一目标，1 细节美学部分提出了自适应的多patch的选择模块，而非随机裁剪；2 另外通过属性图的构建整合了图像整体信息，综合整体与局部，得出美学分

[10]分析用户图片美学排序和图片属性/内容的关系，并提出个性化美学架构

训练如下：

先用提出的数据集训练一个通用美学分预测网络
用1训练出来的网络推理个人的小数据集，将推理结果和用户的自己标注的ground-truth做对比得到差值
训练一个专门预测2中差值的网络

训练好1和3中的网络以后，针对一张图片，先用1模型得到一个通用的得分，第三个模型预测出差值，然后相加得到个性化的美学分值，[17]探索了不同属性对美学分的影响。

3 美学数据集

美学数据集按照标注维度可以分为质量级别分类，美学分，美学属性/内容三类，质量级别具体指按照美学质量高，中，低等，包含这类标注的数据集如3.1所述；美学分是给一张图片客观评价，包含美学分的数据集有如3.2；美学属性/内容除了在标注美学分之外，还标注了一些附加信息如色彩，清晰度等属性得分，内容是否包含人脸等，此外还有些数据集会包含额外的信息，如拍摄参数。

3.1 美学等级分类

The CUHK

数据来源：https://www.dpchallenge.com/

Ke et al 于2006年从上述官网收集了数120000张图片，该数据集的标签是二分类：质量高和质量低，2011年就有人将分类准确率提高到90%，现在应该更高；图片的质量分没有形成一个均匀分布的形态，而是大部分的图片集中在质量高或者质量低的图片上，中间分数的图片比较少；从图片上看，图片更接近于ImageNet, PascalVOC的风格，图片包含的内容主体少，和飞猪的数据集比，内容没有那么丰富，但是图片质量高
The CUHK-Photo Quality (CUHK-PQ)

CUHK的升级， Luo et al 2011年提出，包含17690张图片，图片质量分为高质量分和低质量分，并被分成7个场景，动物，植物，静物，建筑，风景，人物，夜景，

3.2 美学分

Photo.net

官网：https://www.photo.net/

2006年提出，该数据集包含3581张图片，每张图片包含两个分数，美学分和创意性，美学分取值范围为[0-10]，这两个变量高度相关；每张图片至少由两个人标注，然后取平均分；该数据集有很多图片是放在框里面的图，该数据集的数据大部分还是比较好看的，和我们自己的数据集比较起来，PN是专业的，而飞猪的数据是业余人员拍摄的图片

AVA

下载地址：http://research.google.com/ava/

2012年，从www.dpchallenge .com上下载，包含255000张图片，从该网站963个摄影比赛主题捞取，数据集包含3种标注
1. Aesthetic annotations，标注人员组成：专业的图像工作者，摄影师，也包括了摄影爱好者；每张图的投票数量为78～549，平均为210个；投票分值为[0, 10]，值越高则图片质量越高；数据集中有很多非真实的摄影图，以及后期处理过的图，AVA中分数超过5分占多数。
2. Semantic annotations，数据集包含了66个类别语义标签，最常用的标签是自然，风景等。
3. Photographic style annotations，包含14个标签(互补色，双色调，高动态范围，Image_Grain，Light_On_White，长曝光，微距摄影，运动模糊，Negative_Image，三分法则，浅景深，Silhouettes，柔焦，消失点)，可以认为是图片美学的属性
  
  具体的见AVA下载下来的README
FLICKR-AES

2017, Jian Ren,Xiaohui Shen,Zhe Lin, 罗格斯特大学， Adobe实验室

包含40000张图片，每张图片评分从1-5，每个图片由5个AMT人员打分，然后求平均
AADB

Shu Kong， Adobe

包括了10000张图片，training:val:test-8500:500:1000,属性分为11个维度，数据集更接近自然，普通用户拍摄的图片，具体如下图

标注包括3个维度
- 得分，[1,2,3,4,5]离散值，多人打分，训练的时候会在相同打分者，不同打分者等情况采样。
- 属性，[-1,0,1]得分，11个属性，每个属性都打分。
- 语义标签，语义标签是通过k-means聚类得到。
  
  每个维度分别打分，张图片由5个人标注，总分由人主观给定，正向属性超过3个给5分，2个给4分，以此类崔，负向属性超过3个个1分。属性的分数默认0分，正向1分，负向0分，5个人加起来求平均，所以大部分值都是0，0.2，0.4之类的，因为他们都是被5除的结果，个别出现0.5的情况，应该是这张图片标注的人数是4，而不是5，属性分是根据论文的附录以及打分结果推断出来的。内容标签由k-menas得到
AROD

2018年，38万个样本，德国蒂宾根大学的Schwarz等，基于图片网站Flickr收集了38万幅图像

使用被喜欢量的对数与访问量对数的比值评估美学程度

3.3 其他

MIRFLICKR

Muller et al 2010年提出，包含100万图片，数据集比较接近AVA，但是相比较缺乏美学分的标注，包含了图片文字描述，纹理, EXIF（Exchange Information File,焦距，曝光时间…）等

Reference

Sagnik Dhar, Vicente Ordonez, and Tamara L. Berg. High level describable attributes for predicting aesthetics and interesting, CVPR, 2011
Naila Murray， Luca Marchesotti， Florent Perronnin，AVA: A Large-Scale Database for Aesthetic Visual Analysis, CVPR, 2012
Naila Murray， Luca Marchesotti，Florent Perronnin, Learning to rank images using semantic and aesthetic labels, CVPR, 2012
Le Kang1, Peng Ye1, Yi Li, Convolutional Neural Networks for No-Reference Image Quality Assessment, CVPR, 2014
Lu, Xin, et al. “RAPID: Rating Pictorial Aesthetics using Deep Learning.” acm multimedia (2014): 457-466. ACM, 2014
Luca Marchesotti · Naila Murray, Discovering beautiful attributes for aesthetic image analysis，IJCV, 2014
Lu, Xin, et al. “Deep Multi-patch Aggregation Network for Image Style, Aesthetics, and Quality Estimation.” international conference on computer vision (2015): 990-998, ICCV, 2015
Shu Kong, Xiaohui Shen,Photo Aesthetics Ranking Network with Attributes and Content Adaptation，ECCV, 2016
L. Mai, H. Jin, and F. Liu. “Composition-preserving deep photo aesthetics assessment. “ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2016
Jian Ren, Xiaohui Shen, Zhe Lin, Radomir Mech, and David J. Foran. Personalized image aesthetics. In ICCV, 2017
Ma, S.; Liu, J.; and Chen, C. W. 2017. A-Lamp: Adaptive layout-aware multi-patch deep convolutional neural network for photo aesthetic assessment. In CVPR, 722–73, CVPR, 2017
Jun-Tae Lee，Han-Ul Kim, Photographic composition classification and dominant geometric element detection for outdoor scenes, Journal of Visual Communication and Image Representation, 2018
Keunsoo Ko, Jun-Tae Lee, Pairwise aesthetic comparison network for image aesthetic assessment,ICIP, 2018
Talebi, H., and Milanfar, P. 2018. NIMA: Neural image assessment. TIP 27(8):3998–4011，Google, 2018
杨文雅, 宋广乐, 崔超然, 基于语义感知的图像美学质量评估方法，计算机应用2018年第11期
Jun-Tae Lee， Chang-Su Kim，Image Aesthetic Assessment Based on Pairwise Comparison – A Unified Approach to Score Regression, Binary Classification, and Personalization, ICCV,2019
Yuming Fang, Hanwei Zhu, Yan Zeng, Kede Ma, Zhou Wang，Perceptual Quality Assessment of Smartphone Photography，CVPR, 2020
Shaolin Su, Qingsen Yan, Yu Zhu，Blindly Assess Image Quality in the Wild Guided by A Self-Adaptive Hyper Network，CVPR, 2020
Kekai Sheng1,2, Weiming Dong，Revisiting Image Aesthetic Assessment via Self-supervised Feature Learning，AAAI, 2020
Sheng, K.; Dong, W.; Ma, C.; Mei, X.; Huang, F.; and Hu, B.-G. 2018b. Attention-based multi-patch aggregation for image aesthetic assessment. In ACM MM, 879–886, 2018
Yiwen Luo and Xiaoou Tang. Photo and video quality evaluation: Focusing on the subject. In ECCV, 2008
Xiaoou Tang, Wei Luo, and Xiaogang Wang. Content- based photo quality assessment. IEEE Trans. Multimedia, 2013
Wei Luo, Xiaogang Wang, and Xiaoou Tang. Content-based photo quality assessment. In ICCV, 2011
Yiwen Luo and Xiaoou Tang. Photo and video quality eval- uation: Focusing on the subject. In ECCV, 2008
Xiaoou Tang, Wei Luo, and Xiaogang Wang. Content- based photo quality assessment. IEEE Trans. Multimedia, 15(8):1930–1943, Dec. 2013
Luca Marchesotti, Florent Perronnin, Diane Larlus, and Gabriela Csurka. Assessing the aesthetic quality of photographs using generic image descriptors. In ICCV, 2011
Florent Perronnin and Christopher Dance. Fisher kernels on visual vocabularies for image categorization. In CVPR, 2007
Hsiao-Hang Su, Tse-Wei Chen, Chieh-Chi Kao, Winston H. Hsu, and Shao-Yi Chien. Scenic photo quality assessment with bag of aesthetics-preserving features. In ACM Multime- dia, 2011
Jin, X.; Wu, L.; Li, X.; Chen, S.; Peng, S.; Chi, J.; Ge, S.; Song, C.; and Zhao, G. 2018. Predicting aesthetic score distribution through cumulative jensen-shannon divergence. In AAAI, 77–84, 2018
Hosu, V.; Goldlucke, B.; and Saupe, D. 2019. Effective aesthetics prediction with multi-level spatially pooled features. In CVPR,2019
Pan, B.; Wang, S.; and Jiang, Q. 2019. Image aesthetic assessment assisted by attributes through adversarial learning. In AAAI, 679–686，2019
Z. Wang and A. C. Bovik. Modern Image Quality Assessment. San Rafael, CA, USA: Morgan Claypool Publishers, 2006.
Kuang-Yu Chang, Kung-Hung Lu, Aesthetic Critiques Generation for Photos, ICCV, 2017
Kaiming He, Xiangyu Zhang, Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition, CVPR, 2015
F.Perronnin,J.Sa ́nchez,andT.Mensink.Improvingthe fisher kernel for large-scale image classification. In Pro- ceedings of the 11th European Conference on Computer Vi- sion: Part IV, ECCV, 2010