概述
包括图像重建和图像去噪在内的图像重建在图像计算领域内是一项极具挑战性的问题。本文提出了一种新的名为X-GANs的条件GAN变种的网络结构针对任意缺失的原图像进行重建。本文提出了一种新的生成器模型和一个多尺度的判别器,除了添加了对抗损失,本文也加入了基于VGG的感知损失,以及基于图像特征分析进行一个对应点损失。本文提出的GAN网络能够适用于多种类型的图像重建问题,甚至对于极端图像损失也有较好的效果。本文显著的提高了图像的重建精度和准确度。本文的方法也可以扩展到处理高比率图像压缩。
炼丹笔记
本文通过采用机器学习算法将基本统计学原理应用在信号重建过程中,即将受损信号映射到完整信号,这一过程中本文得出一个简单但又重要的结论——仅仅通过分析受损信号样例即可恢复原始图片,不使用特定的图像先验信息或是损失的似然模型,这一方法在性能方面有时甚至超过采用标准信号训练的结果。 在实践中,本文展示了单个模型学习照片去噪,蒙特卡罗图像去噪合成和欠采样MRI扫描影像重建,所有的不同过程的损失均基于噪声图像。
传统CNN去噪方法如下,通过采用训练大量标注样本数据对$(\hat{x}_i,y_i)$,从而获得一个能够实现去噪功能的神经网络模型。其中$\hat{x}_i$是噪声图像,$y_i$是清晰图像,$f_{\theta}$该问题映射的参数集合,此处为神经网络本身,输入网络后最小化下式后完成训练。
$$\underset{\theta}{argmin}\underset{i}{\sum} L(f_\theta(\hat{x}_i),y_i) \tag{1}$$
上述过程为通常的基于神经网络的图像去噪过程(也可以说是信号恢复)。但是由于高清原始图像获取手段的限制以及获取费用较为高昂,本文针对这一问题进行了研究。
本文认为任何一个良好的图片结果均可以通过不好的图像中学习并恢复。本文既不需明确的统计似然模型,也不用图像的先验信息。
假设我们有一组不可信室温数据$(y_1,y_2,…)$,为了估计当前真实室温,通常策略是找到一个$z$使得在某一L损失函数作用下取得最小值,如下式(2)
$$\underset{z}{argmin}\mathbb{E} \lbrace{L(z,y)}\rbrace \tag{2}$$
若采用$L_2$损失函数,即$L(z,y)=(x-y)^2$,由该式可知,当且仅当z为y的算术平均值是取得最小值,即
$$z= \mathbb{E} \lbrace{y}\rbrace \tag{3}$$
若为$L_1$则不解释。
从统计学的角度来看,使用这些常见损失函数的汇总估计可以被视为一种ML估计,其通过将损失函数解释为一种负对数似然。
训练神经网络回归是一种点估计的过程的推广。在经典训练任务中,跟定一组输入-目标对$(x_i,y_i)$,且网络定义为$f_\theta(x)$,其中$\theta$为网络参数,则传统过程可被抽象为(4):
$$\underset{\theta}{argmin}\mathbb{E_{(x,y)}} \lbrace{L(f_\theta(x),y)}\rbrace \tag{4}$$
实际上如果x和y相互独立的话,则问题会退化为(2)式,但实际情况并非如此。因此在这一问题中,(4)式近一步具体为下式:
$$\underset{\theta}{argmin}\mathbb{E_{x}}\lbrace{\mathbb{E_{y|x}}\lbrace{L(f_\theta(x),y)}\rbrace}\rbrace \tag{5}$$
理论上网络可以通过分别为每个输入样本求解点估计问题来最小化损失。因此潜在损失的属性则由网络继承(其实这句有点不懂啊)。
经过分析等式(1)的训练过程暗示了一个观点:输入和标准图是1:1映射的,但实际情况并非如此。比如针对超分辨率重建过程中,一张低分辨率图像x可以被解释为若干张不同的高分辨率图像。因此$p(y|x)$是一个极其复杂的分布。因此在通常训练神经网络的过程中,将一对低、高分辨率影像输入网络并且采用$L_2$损失函数的情况下,网络会输出所有可能的高分辨率图像的平均结果,这一过程会使得网络输出的图像产生在空间上出现模糊情况。当然这时可以使用一个训练过的判别器作为损失加以修正。
若此时我们将目标结果y替换成另一个与y期望相同的随机分布,其最终预测结果也和原来保持一致。显而易见,无论我们从任何特定分布中抽取y,(3)式结果均不改变。所以,如果我们将带有条件输入的目标分布$p(y|x)$替换为任意分布,条件期望依旧不变,最佳网络的参数$\theta$也不会发生改变,即(5)式也不会发生改变。将这一结果与等式(1)中的缺陷输入结合,任务仍然是最小化经验风险函数$L$,但是替换当前输入$\hat{x}_i$和标准图像$\hat{y}_i$(也就是说$\hat{y}_i$也是具有缺陷即含有噪声的图像)均采用从缺陷分布中抽取得结果(输入和输出不必完全一样),此处要求$\mathbb{E}{\hat{y}_i|\hat{x}_i}=y_i$,替换后训练网络$f_\theta(x)$,网络训练结果和之前仍然一致,具体如下式:
$$\underset{\theta}{argmin}\underset{i}{\sum}L(f_\theta(\hat{x}_i),\hat{y}_i) \tag{6}$$
当数据量无限大的时候,(6)式结果将无限逼近(1)式。当数据有限时,结果的方差是目标(Target)中缺陷结果($\hat{y}$)的平均方差除以总样本数。有趣的是上述所有内容均不依赖于任何缺陷样本的似然模型或清晰(标准)图片的先验知识。
在许多图像复原任务中,输入的缺陷数据的期望都正好是我们所要复原的数据。以微光拍摄为例,一个长曝光无噪声的图片正好是其各自独立的、短曝光的、带噪声的图片的平均。由此,我们只要有两张带噪声但内容一样的图片作为训练样本,就能完成和原来一样的去噪效果,大大降低了获取清晰图片的成本。
由此实验结果可以发现用噪声数据和标准数据收敛效果基本一致。
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
1 | $ hexo new "My New Post" |
More info: Writing
1 | $ hexo server |
More info: Server
1 | $ hexo generate |
More info: Generating
1 | $ hexo deploy |
More info: Deployment