[论文笔记]Deep Learning for Image Super-resolution:A Survey - 1.Problem Setting And Terminology

读一下这篇Survey,顺便做点阅读笔记,先从Introduction后的第一部分Problem Setting And Terminology开始:

一些术语与定义

  • LR - Low-resolution;

  • HR - High-resolution;

  • SR - Super-resolution 简单的理解即是将图像通过一定的技术处理,从低分辨率(LR)还原到高分辨率(HR)的过程;

LR图像被定义为HR图像经降采样后得到的输出,最常见的降采样操作是带上抗锯齿参数的双立方插值,也有更复杂效果更优的方法:

$$\mathcal{D}\left(I_{y} ; \delta\right)=\left(I_{y} \otimes \kappa\right) \downarrow_{s}+n_{\varsigma},{\kappa, s, \varsigma} \subset \delta$$

即将图像$I{_y}$与Blur Kernel $k$卷积后加上一定的高斯白噪音$n_{\varsigma}$。

图像质量评价指标

1. 峰值信噪比 - PSNR

先定义MSE(均方误差)为:

$$M S E=\frac{1}{m n} \sum_{0}^{m-1} \sum_{0}^{n-1}\|f(i, j)-g(i, j)\|^{2}$$

再做一些数学处理,即可得到PSNR

$$PSNR=20 \log _{10}\left(\frac{M A X_{f}}{\sqrt{M S E}}\right)$$

其中图像尺寸为$m\times n$,$f$表示原HR图像,$g$表示经过SR处理的重建图像,$MAX{_f}$表示图片的最大像素值,当每个采样值有$n$个bit的时候,有:

$$MAX{_f}=2^n-1$$

通常情况下 $n=8$,则$MAX{_f}=255$。

由公式可见,MSE其实就是原图像与重建图像在每个像素上的误差之平方的平均值;而PSNR则是将$MAX{_f}^2$与MSE相比再取对数,其单位为db,越大说明原图像与重建图像越相似。 然而由于PSNR只关注像素层面的对应而非整体视觉效果,其评价结果不一定符合人类对SR的期望。但它仍然是运用得最广泛的评价指标之一。

2.结构相似性 - SSIM

由于人类视觉系统(HVS)更加看重图像的整体结构信息,有人基于此提出了一种符合人类直觉的评价方法 - SSIM。 SSIM的计算依赖以下值:亮度 - luminance、对比度 - contrast、 结构 - stuctures,其计算流程在原论文中以下图展示,做得非常明了: ssim.png 对原图像$I$、重建图像$\hat{I}$: 对于亮度,求其像素强度的均值$\mu{_I}$、$\mu{_\hat{I}}$:

$$\mu_{I}=\frac{1}{N} \sum_{i=1}^{N} I(i)$$

对于对比度,求标准差$\sigma{_I}$、$\sigma{_\hat{I}}$:

$$\sigma_{I}=\left(\frac{1}{N-1} \sum_{i=1}^{N}\left(I(i)-\mu_{I}\right)^{2}\right)^{\frac{1}{2}}$$

对于结构,求$I$与$\hat{I}$的协方差$\sigma_{I \hat{I}}$:

$$\sigma_{I \hat{I}}=\frac{1}{N-1} \sum_{i=1}^{N}\left(I(i)-\mu_{I}\right)\left(\hat{I}(i)-\mu_{\hat{I}}\right)$$

其中的$I(i)$即表示第$i$个像素的强度。

则可得亮度差异:

$$\mathcal{C}_{l}(I, \hat{I})=\frac{2 \mu_{I} \mu_{\hat{I}}+C_{1}}{\mu_{I}^{2}+\mu_{\hat{I}}^{2}+C_{1}}$$

对比度差异:

$$\mathcal{C}_{c}(I, \hat{I})=\frac{2 \sigma_{I} \sigma_{\hat{I}}+C_{2}}{\sigma_{I}^{2}+\sigma_{\hat{I}}^{2}+C_{2}}$$

以及结构差异:

$$\mathcal{C}_{s}(I, \hat{I})=\frac{\sigma_{I \hat{I}}+C_{3}}{\sigma_{I} \sigma_{\hat{I}}+C_{3}}$$

其中$C_{1}=\left(k_{1}\times MAX{_f}\right)^{2}$与$C_{2}=\left(k_{2}\times MAX{_f}\right)^{2}$是为避免除零而添加的常数,有$k_{1} \ll 1$和$k_{2} \ll 1$,一般地,分别取作$0.01$与$0.03$;$C{_3}$同理,常取$C{_3}=C{_2}/2$。 最后得:

$$\operatorname{SSIM}(I, \hat{I})=\left[\mathcal{C}_{l}(I, \hat{I})\right]^{\alpha}\left[\mathcal{C}_{c}(I, \hat{I})\right]^{\beta}\left[\mathcal{C}_{s}(I, \hat{I})\right]^{\gamma}$$

式中$\alpha,\beta,\gamma $为调整权重用的参数,常取$\alpha=\beta=\gamma=1 $。在实际计算中常取多个小块滑动计算后再取平均值得到全图SSIM。 $SSIM\in [-1,1]$,其越接近1时说明$I$与$\hat{I}$越相似。

3.平均主观得分 - MOS

顾名思义,请受试者对重建图像进行主观打分(常为1-5分)后取平均值。

4.Learning-based Perceptual Quality

使用机器学习的方法训练模型进行评价。

5.基于任务效果进行评估 - Task-based Evaluation

将SR的结果投入到其他的实际任务中去,观察其效果以评价图像。

6.其他

MS-SSIM:Z. Wang, E. Simoncelli, A. Bovik Et al., “Multi-scale structural similarity for image quality assessment,” in Asilomar Conferenceon Signals, Systems, and Computers, 2003.

FSIM:L. Zhang,L. Zhang,X. Mou,D. Zhanget al.,“Fsim: a feature similarity index for image quality assessment,“IEEE transactionson Image Processing, vol. 20, 2011.

NIQE:A. Mittal,R. Soundararajan, and A. C. Bovik, “Making a completely blind image quality analyzer,“IEEE Signal ProcessingLetters, 2013.

最近的文章

Hello Hugo

Hello Hugo 花了不少精力把博客从Halo迁移到Hugo了,移植主题就花了一天,然后再在主题的基础上加了一些杂七杂八的魔改…… 果然还是静态网页生成器用着更舒心。…

杂谈 继续阅读
更早的文章

聊一聊Odd Taxi的演出

本来我觉得认为演出好不好是一个很个人的问题,也没有必要过多对他人的看法评头论足,但是看到有人评价本片演出”不在及格线上“,还是按捺不住想为本片和制作组辩白几句; 首先我认为这个片的演出是有其独特的风格在的,前中期以计程车为主要舞台展开剧情的前提下就注定了它片中的大部分台词量来自于计程车这个小空间内的对话,在这些场景下,不同于很多其他动画的是,对话而非画面才是其进行表达的主要途径。演出的重心在于如何设计分镜引导观众的焦点,如何准确传达说话人的情绪与性格,如何搭配剧伴渲染氛围,如何综合各个要素完整达 ……

动画 继续阅读