LLNet:A deep autoencoder approach to natural low-light image enhancement_Pattern Recognition 2016

  • Post author:
  • Post category:其他


这篇文章貌似是深度学习用于图像增强的第一批文章之一,应该说很具有开创性,所以拿来读一读看看,写着写着就变懒了,最后变成机翻了



(注意:机翻警告)



Abstract& Introduction

在当前的工作中,我们使用深度自动编码器(我们称为低光网络或LLNet)从表示学习的角度解决对比度增强的问题,该编码器经过训练可以学习低光图像中的基本信号特征并自适应地变亮和降噪

贡献:本文提出了一种利用一类深度神经网络-叠置稀疏去噪自动编码器(SSDA)来增强自然弱光图像的新方法。据作者所知,这是第一个使用深度架构进行(自然)微光图像增强的应用。提出了一种通过综合修改网络数据库中的图像来模拟低光环境的训练数据生成方法。研究了两种深层结构:(i)用于对比度增强和去噪(LLNet)的同时学习;(ii)使用两个模块(分段LLNet与S-LLNet)。对训练网络的性能进行了评估,并给出了在合成噪声和人工暗化的情况下测试数据的方法。在自然微光图像上重复进行性能评估,以证明该综合训练模型在微光环境下应用于常规手机摄像头获得的真实图像集的增强能力。

将深度网络的隐藏层权重可视化,为模型学习到的特征提供洞察。另一个贡献是,该框架在不需要参考图像帧的情况下执行盲对比度增强(例如,在视频增强[7]中使用来自先前帧的信息,以及使用白天对应帧[8]),在经常遇到新环境的情况下(例如在战术侦察中),这是绝对重要的。



相关工作

有许多著名的对比度增强方法,

例如通过直方图均衡化(HE)来提高图像对比度,以及它的变体,例如对比度限制自适应HE(CLAHE)保持亮度的BI-HE(BBHE)和量化BI-HE(QBHE)9-12。随后,介绍了一种利用数学传递函数映射图像对比度色调的优化技术OCTM 13。然而,这需要一些领域知识的加权以及相关的复杂性增加可用的方案也探索使用非线性函数,如伽马函数14来增强图像对比度。图像去噪任务已经探索使用BM3D 15.SVD 16和非线性滤波器17。通过深入学习,au thors在18年提出了从噪声图像中提取特征的去噪自编码器的概念,而19)应用循环神经网络去噪自然图像。此外,作者在20年中实现了一种自适应多列结构,通过训练不同类型噪声的模型,并对具有任意噪声级别和类型的图像进行测试,实现了图像的鲁棒去噪。利用多层感知器(MLP)的编码层,利用叠加去噪自编码器21从噪声图像中重建出清晰图像。22增强的自然低照度图像使用适当字典中的低光图像块的稀疏表示来近似于响应的昼时图像。

Dong等人。7提出了一种算法,该算法将darkinput帧反转,并进行去模糊处理,以提高微光图像的质量。在23个涉及去叠的算法中提出了一种相关的方法。另一项技术,在8)中提出,将图像分离为两个分量-反射率和照度-并使用反射率分量增强图像,困难在于:这可能会在重建的图像中引入不需要的伪影。

因此,最具挑战性的任务之一是收集大量的低光图像数据集来训练深度学习模型。NORB对象识别数据集24包含在训练集的6个不同照明度下拍摄的自然图像不足以进行训练。基于这一动机,我们还提出了一种通过修改从现有数据库获得的图像来模拟微光环境的方法。



网络架构

弱光网络(LLNet) 在本节中介绍了所建议的框架以及训练方法和网络参数。



3.1

使用LLNet从弱光图像中学习特征自动 SSDA是深度编码器的稀疏性诱导变体,可确保以无监督的方式学习在数据集的适当维空间的不变特征 。早期的支持者 [18] 已经表明,通过在预训练贪婪逐层方式堆叠若干去噪自动编码器(DA),所述网络能够在误差反向传播期间找到更好的参数空间设 y∈9 N 是清洁,未损坏的数据,并且 x∈9 N 是y的损坏的,噪声版本的 ,这样使得 x =My,其中 ,M∈R N×N 是高维的,非分析矩阵,假定为它损坏了干净的数据。用DA,前馈学习功能被定义来表征的每个元素 M 如下 其中 σ 和 σ’ 表示的编码和解码函数(通常是S型函数 σ ()s 或 σ’( s )=(1 + exp( -s ))-1具有的单个DA层) K个 单位, 分别。 W∈R K×N 和 b∈R K 是每层编码器的权重和bias,而 W’∈9 N×K 和 b∈9 K 分别用于每个层中的解码器的权重和bias。 H(X)∈9 K 是隐藏层和的激活 y ^(x) ∈9 N 是输入的重建(即,DA的输出)。 LLNet框架的灵感来自SSDA,其稀疏性特征有助于学习功能对信号进行降噪。在当前的工作中,我们利用SSDA的降噪能力和深层网络的复杂建模能力来学习弱光图像中的潜在特征,并以最小的噪声和改善的对比度生产增强的图像。需要强调的一个关键方面是,网络是使用从互联网数据库获得的图像进行训练的,该图像随后经过综合处理(即非线性变暗并添加高斯噪声)以模拟弱光条件,因为收集了大量自然弱光图像(SUF网络cient深网络培训)及其明亮的同行可以是不现实的实际应用。尽管LLNet在合成图像上进行了训练,但是合成图像和自然图像都用于评估网络在降噪和增强对比度方面的性能。 除了常规的LLNet以外,我们还用和嘈杂的图像对网络进行训练,我们还提出了该 分阶段的阶段的 模糊LLNet(S-LLNet),S-LLNet由一系列依次排列的模块组成,用于对比度增强(阶段1)和降噪(阶段2)。与常规LLNet的主要区别在于,使用仅加深的训练集和仅加噪的训练集分别对模块进行训练。两种结构都显示在 图1中。注意,而S-LLNet架构提供有较大 的的培训灵活性,它略微增加了推理时间这可能是某些实时应用的关注。然而,定制的硬件加速可以显着地解决此类问题。



3.2

网络参数 LLNet由3 DA层组成,第一个DA层的输入图像为17*17(即289输入单元)。第一层 DA层有2000隐藏单元,第二个有1600个隐藏单元,并且第三有1200个隐藏单元,其成为瓶颈层。超出第三DA层形成的解码对应 网络连接RST三层,从而具有1600级2000分别用于第四和第五层隐藏的单位。输出单元具有相同的尺寸作为输入,即289.网络被预先训练用于与预训练学习0.1率对于30点的历元 前两种DA层和0.01最后DA层,而 音响进行netuning以0.1为一学习率 网络连接RST 200个 连接netuning历元,0.01算账,并停止仅当在验证错误的改善是小于0.5%。对于S-LLNet,每个模块的参数都相同。



3.3 训练数据生成

使用从169个标准测试图像中提取的422,500个补丁执行训练。1 按照目前的做法,唯一要做的预处理是将图像像素标准化为零到一。在生成补丁的过程中,我们从同一张图片的随机位置(以及随机变暗和噪声参数)生成了2500个补丁。注意,用于生成训练集和验证集的补丁的图像是不相交的,以减少训练和验证集之间的相关性。通过这样做,我们避免了两个集合之间的相关性,这可能会高估模型性能。将17 × 然后使用MATLAB命令17像素色块非线性地变暗 imjust 随机地应用gamma调整,。伽马correc-和灰是一个简单但与应用幂定律公式的,以图像为下面的表达式逐像素增强一般的情况下 :I OUT = A×I 在 γ(1) 其中 A 是由最大像素确定的常数图像中的强度。直观地,当图像变亮, γ <1 时而 γ = 1 则图像不受影响。因此,当 γ > 1时,映射将朝着较低(较暗)的灰度像素强度值加权。



3.4模拟黑暗选择

均匀分布的 γ〜 均匀(2,5), 具有随机变量 γ ,以使训练斑块变暗至不同程度。为了模拟用于捕获图像的低质量的相机,这些原始训练补片用高斯经由函数噪声破坏 imnoise 与的标准偏差 σ= B(255 分之 25)2 ,MATLAB,其中 B〜 一致 (0,1)。因此, 网络连接最终损坏的图像和原始图像表现出以下重新lationship: ,其中函数 g (·) 表示伽玛调整功能,而 n (·) 表示噪声功能。 带有随机噪声级别的随机伽马变暗会产生各种训练图像,这些训练图像可以提高模型的鲁棒性。实际上,自然的低光图像除了高斯噪声外,还可能包括量化和泊松噪声(例如,用诸如CCD和CMOS等成像传感器捕获的图像)。我们选择只关注高斯模型,以简化分析,并作为对在合成图像上训练并应用于自然图像的框架进行初步可行性研究。此外,由于高斯噪声是许多图像去噪任务非常熟悉但很流行的噪声模型,因此我们可以了解LLNet在其他图像增强算法方面的表现。训练集被分成211250个训练样例,211250个验证样品,并且将样品随后随机SHUFFL编辑。训练步骤涉及使用描述的自动编码器学习低光和噪声的不变表示 第3.2节中。在训练模型时,网络会尝试消除噪声并同时增强这些变暗补丁的对比度。通过计算均方误差,将重建后的图像与干净版本进行比较(即明亮,无噪声的图像)。 当训练LLNet和S-LLNet时,每个DA都通过误差反向传播进行训练,以使稀疏性正规化的重建损失最小化,如Xie等人所述。



3.5图像重建

在期间推理,测试图像是 第一个分解成过度研磨17*17个 补丁以步幅大小3 3.的补丁的集合然后通过LLNet传递以获得对应去噪,对比度增强补丁。将补丁平均后重新排列回其原始尺寸。从我们EX- periments,我们 网络第二,使用的的补丁的步伐 2 2或甚至 1( 完全重叠的补丁)不产生显着地优于结果。此外,增加DA层的数量可改善网络的非线性建模能力。但是,较大的模型训练起来的计算量更大,因此我们确定当前的网络结构足以满足本研究的需要。



评估指标和比较方法

在本节中,我们将简要介绍其他对比度增强方法以及用于评估建议框架性能的性能指标(图2)。



4.1性能度量

使用 两个度量,即峰值信噪比(PSNR)和结构相似性指数(SSIM)。 KG Lore等。 /模式识别61(2017)650–662 653 图。2. 训练LLNet:训练图像被合成地变暗并添加了噪声。这些图像通过LLNet供给其中所重建的图像与未被破坏的图像相比来计算误差,然后将其向后传播到 Finetune和优化模型权重和偏差。



4.1.1峰值信噪比 (PSNR)

PSNR孔定量音响ES与原始图像的腐败程度噪声以及近似图像的人类感知。它也已经建立来证明与压缩引入的噪声的直接关系 [26]。大致而言,PSNR越高,去噪图像越好,尤其是在使用相同压缩码的情况下。基本上,它是的作案科幻原始图像和重建图像之间的均方误差阳离子。给定无噪声的 m × n 单色图像 I 及其重构版本 K, 这里,max(I)是图像的最大可能像素值 I。



4.1.2。结构相似性指数 (SSIM)

SSIM是用于捕捉数字图像和视频的感知质量的度量 [6,27]。它用于测量两个图像之间的相似度。 SSIM孔定量音响ES测量或图像质量的预测相对于初始的未压缩或distor-自由和灰图像作为参考。由于已知PSNR和MSE可以量化结果和参考图像之间的绝对误差,因此此类指标可能无法真正量化完全相似性。另一方面,SSIM探索图像结构的变化,并成为一种感知类型的模型,它结合了像素的相互依赖关系以及对对比度和像素强度的掩盖。 SSIM表示为 其中 ,μx 是平均窗口是 x,μy 是平均的 窗口 Y,σ×2 是的方差 x ,σY2 方差 Y,XYσ2 是的 协方差 x 和 y ,C 1 =(K 1 L)2 和 C 2 =(K 2 L)2 是两个变量 来稳定与弱分母的划分其中 ,k11/40.01和 k21/40.03默认情况下, L 是像素值的动态范围。



4.2.比较的方法

本小节描述了几种用于比较的弱光图像增强方法。虽然我们承认其它重%的非DL方法 [22,7,23,8],缺乏公开的源代码防止我们执行详细的比较。



4.2.1。HE

直方图均衡(HE) 的图像的直方图是孔定量的图像的强度分布的图形表示音响ES表示每个强度值当用8位整数表示范围从0到255的像素数。它是提高图像的伸展该强度范围的对比度的方法 [28,29,9]。它的原始直方图映射到具有更宽和更均匀的分布的另一分布(即 FL东北黑钙土),使得强度值分布在整个范围。此方法在背景和前景都亮或都暗的图像中很有用,但可能不适用于具有高动态范围的图像。特别地,该方法可以导致在X射线图像中更好地查看骨骼结构,并在曝光过度或曝光不足的照片中获得更好的细节。



4.2.2CLAHE

对比度限制自适应直方图均衡(CLAHE) 对比度限制自适应直方图均衡在对比度限制方面不同于普通的自适应直方图均衡。在CLAHE的情况下,对比度限制程序必须应用于每个导出了变换函数的邻域 [10],这与以全局方式进行的规则直方图均衡相反。 CLAHE是去发展咸,以防止的过度扩增fi噪声阳离子在自适应直方图均衡中产生的。



4.2.3。伽玛校正(GA)

伽玛校正的简单形式在等式中概述。 (2)。所示的伽玛曲线具有伽玛曲线 γ > 1 与生成的完全相反的效果 γ <1。重要的是要注意,当时,伽马校正会朝着同一曲线减小 γ = 1。换句话说,用校正的任何图像都会得到 γ = 1 完全相同的图像。如第前面所讨论的 3.3节,将图像变亮通常当 γ<1 和变暗当 γ> 1。



4.2.4。直方图均衡与3D块匹配(HEþBM3D)

BM3D 是当前状态的最先进的算法由呈现的图像噪声去除 [15]。它使用维纳的协作形式 滤波器通过把相似的2D块为3D数据数组,然后共同去噪分组贴剂补丁的高维块。通过表决机制将来自堆栈中的去噪后的色块重新应用到原始图像上,该表决机制可从考虑的区域中消除噪声。 在这项工作中,我们决定 第一个均衡测试图像的对比度,然后使用BM3D作为降噪以除去从直方图均衡所产生的噪声。以前,我们还尝试过颠倒顺序,即首先使用BM3D去除弱光图像噪声 的,然后进行对比度增强。由于BM3D通过应用去噪补丁噪声去除,则blob-形贴片边界是显着地扩增fiED和变得极为显着,当施加直方图均衡。这会产生非竞争性结果,从而使比较不公平。因此,在报告结果时,我们确保在直方图均衡后执行BM3D。



5.结果与讨论

在本节中,我们将针对所示标准图像上的上述方法,评估我们框架的性能 图3。测试图像在变暗 γ = 3时,其中嘈杂的版本包含高斯噪声 σ = 18 和 σ = 25的,这是典型 在光照差和/或高温下图像噪声的值;这些参数对应于缩放方差 σ= 0.005 第2 和 σ= 0.010 第2 分别如果像素强度在 8位整数(σσ= / 255 S 其中 σ∈[] 0,1 秒 和 σ∈[] 0,255 )。这些参数是 第一个 网络为了研究在对比度增强和降噪的每个方法的有效性固定的。对于更广义集合成测试图像,变暗和噪声AD-dition使用执行的随机值 γ ∈[] 1,图4 和 σ∈[] 0,25。 直方图均衡是通过使用MATLAB函数执行 histeq,而CLAHE与功能执行 adapthisteq 具有缺省参数(8 A8图像块,0.01对比度增强极限时,满量程输出,256个箱用于构建对比增强变换,均匀的直方图低压配电-分布参数为0.4)。在暗图像上执行伽玛调整 γ = 1/3的 除非另有说明,否则。对于混合 “HEþBM3D” 的方法, 我们首先施加直方图均衡使用由Dabov等人开发的BM3D代码之前,以提高图像对比度。 [15] 作为降噪器,其中BM3D的噪声标准偏差输入参数设置为 σ = 25 (测试图像的最高噪声级别)。既LLNet和S-LLNet输出重构重叠17个 17 步幅大小补丁 3Â3. 培训使用Theano的深学习框架上NVIDIA的TITAN X GPU进行 [30,31] 并把AP-近因30H。增强图像与512个的尺寸 的512个像素承担了GPU 0.42秒。



5.1。算法的适应性

理想情况下,已经明亮的图像不应再加长亮度。为了对此进行测试,对正常,非黑暗和无噪声的图像执行了不同的增强算法。 图4A示出了运行时的结果 “城镇” 通过各种算法图像。 LLNet输出的图像稍微亮一些,但是如果像盲目地应用GA,则不会像GA的输出那样使所有内容显得过亮和褪色 γ = 1/3那样。这表明在学习弱光特征的过程中,LLNet成功地学习了应应用于图像的必要亮度等级。但是,通过目视检查评价对比度增强时,直方图equaliza-和灰的方法(即HE,CLAHE,HEþBM3D)提供优异的增强给定的原始图像。当使用其他图像(即 “Bird”, “Girl”, “House”, “Pepper”如所示,等)进行测试时 表1,基于HE的方法通常在PSNR和SSIM较高的情况下效果更好。

KG Lore等。 /模式识别61(2017)650–662 654



5.2。增强人工变暗图像

图 4b示出的各种方法输出时增强被应用于一个 “镇” 的图像与变暗 γ= 3。在这里,LLNet实现了最高的PSNR,其次是GA,但是在使用SSIM进行评估时则相反。由于,因此可以预期GA增强图像与原始图像之间的高度相似性 最佳的伽玛重新调整参数实际上使过程接近原始强度水平。事实上,当与其他图像进行测试,最高得分变暗只图像通过仅一个LLNet的,S-LLNet或GA其中HE,CLAHE和实现HEþBM3D失败。列出的结果 表1中 凸显了采用LLNet和S-LLNet的深度自动编码器方法的优势和广泛的适用性。



5.3。在存在合成噪声的情况下增强变暗的图像

为了模拟使用常规或低于标准相机传感器拍摄的暗图像,高斯噪声会添加到合成暗图像中。 图4C和 4D分别显示了一个伽玛变暗的 “城镇” 图像,该图像高斯噪声所破坏 σ = 18 和 σ = 25的分别被。对于这些测试图像,LLNet和S-LLNet均获得了优于其他方法的PSNR和SSIM,如所示 表1。直方图均衡方法失败,因为有噪像素的强度被均衡,并对输出图像产生不利影响。此外,,因此BM3D无法使用参数有效地对均衡后的图像进行降噪 σ = 25 由于噪声的结构会在均衡过程中发生变化。 代替使用, 固定成本的 γ 和 σ 值变暗和噪声。另外我们使用的随机值生成90个图像 γ ∈[] 1,图4 和 σ∈[] 0,25 。接下来,在这90张图像上评估每种算法的性能,并在中计算并列出平均PSNR和SSIM 表2。 90个结果中有四个显示在 图5中。在表中,与其他方法相比,独立LLNet的平均SSIM和PSNR均达到最佳性能,并且总体上比S-LLNet好。似乎S-LLNet仅在非常暗和高噪声水平下才能产生最佳增强效果。但是,当 γ 和 σ 参数在较低水平变化时,LLNet优于S-LLNet。这是因为LLNet会同时执行对比度增强和去噪 ,而不是以分阶段的方式执行任务,而这种方式隐式地假定了这两个任务之间的独立性。



5.4。在自然弱光图像上的应用

处理下载的图像时,可以使用干净的参考图像来计算PSNR和SSIM。但是,当使用自然暗的图像时,参考图像可能在现实生活中不可用。由于这是一项受控实验,因此我们通过在三脚架上安装普通的手机(Nexus 4)摄像机来解决此问题,该摄像机可在室内环境中同时打开和关闭照明灯。点亮的图像用作PSNR和SSIM计算的参考图像,而熄灭的图像则成为自然的低光照测试图像。尽管不能将明亮的图片视为基本事实,但它为评估各种算法的性能提供了参考点。每种增强方法的性能所示 如图6。直方图均衡化虽然可以大大改善图像的对比度,但会破坏具有大噪声含量的输出。另外,从过度扩增的方法患有fi在区域阳离子其中存在暗区非常高的强度的亮度,如由面板在计算机显示器上模糊效应 6B(vi)和(VII)。 CLAHE能够提高而不会显对比度的着开花的显示器,但像HE它趋向于图像内的噪声放大。 LLNet执行显着地以及与它的能力,在大多数的图像的抑制噪声的同时提高局部对比度,如图中放大倍数音响在的底部编补丁



5.5。高斯与泊松噪声训练

在某些天然低光情形下,噪声底层廓可以通过光子散粒噪声或泊松噪声,其是一种类型的电子噪声的正常建模。在从图像传感器的图像的较暗区域主要噪声通常是由统计量子引起的 涨落,即,在给定曝光电平感测到的光子的数量的变化。从数学角度来看,高斯噪声通常是分别生成并独立添加到原始图像的每个像素中,而泊松噪声则将原始像素强度考虑在内,并通过泊松过程生成新的强度。换句话说,高斯噪声中无关, 与图像的原始强度但是泊松噪声与每个像素的强度相关。在提供了一个可视示例, 图7中 以显示在不同光强度(即光子计数)下高斯噪声和泊松噪声之间的差异。由于大多数图像传感器(例如CCD和CMOS)在捕获低光图像时都会遭受泊松噪声,因此用具有泊松噪声的合成图像训练模型在增强自然低光图像方面具有潜在的优势。两个训练方案之间的实验比较 – 与泊松对与高斯噪声 – 示于 图8。 在 图8中,经过高斯噪声训练的LLNet(LLNet-G)的输出通常看起来更平滑,但由于保留了阴影而在细节上遭受了一些损失。另一方面,用泊松噪声(训练的模型可LLNet-P)产生相对嘈杂的图像,但具有更清晰的细节。造成这种差异的原因在于训练集的性质。 为了解释为什么LLNet-G倾向于保留阴影但比LLNet-P更好地去噪,请回想一下,从看出, 图7可以,较暗的训练与高斯噪声相比斑块受泊松噪声的影响较小。因此,LLNet-G能够看到更多的噪声训练示例(特定的噪声暗斑)并学习如何对其进行降噪。此外,当一个非常暗的补丁由于高斯噪声而损坏时,变为负值的像素强度将被裁剪为0。因此,这会提高单个黑暗训练补丁的平均像素强度,并使该特定补丁看起来比黑色更灰暗。在逐块增强期间,LLNet-G可能会遇到灰色补丁并将其误认为是嘈杂的深色补丁。最终,灰色斑点会变暗,从而导致深色阴影保留在增强图像中。相反,用于训练LLNet-P的深色补丁受Poisson噪声的影响最小,这又减少了LLNet-P从中学习去噪功能的嘈杂示例的数量。与LLNet-G相比,结果是LLNet-P的去噪能力较低,但具有获得的优势,其中阴影也得到了增强,以展现出相关细节。 注意,借助足够的训练数据和优化的超参数,深度自动编码器可以学习近似于几乎所有的非线性降噪功能。因此,可以将两个训练集(即高斯噪声和泊松噪声)的并集用于训练新的LLNet,同时考虑两种噪声类型。当然,还有许多其他方法可以进一步提高LLNet的性能(例如,超参数优化,集成方法和更严格的过程建模),但我们证明,的概念。 转移学习 可以通过适当的训练数据生成方案来充分实现模拟现实世界的过程。因此,经过合成图像训练的模型确实可以应用于增强具有竞争性能的自然弱光图像。 8. 用高斯噪声(LLNet-G)和泊松噪声(LLNet-P)训练的LLNet的自然弱光图像增强结果。 “Gsn” 和 “Psn” 分别是高斯和泊松的缩写。最好在屏幕上观看



5.6。去噪能力,图像清晰度和色块大小

在降噪能力和增强图像的感知清晰度之间需要权衡。虽然较高的PSNR表示较高的降噪能力,但此度量标准有利于边缘更平滑。因此,清晰度较差的图像通常会实现较高的PSNR。因此,SSIM用作评估度量结构信息中得失的补充指标。从实验中,发现去噪能力(PSNR),相似度水平(SSIM)和图像清晰度之间的关系取决于去噪色块相对于测试图像的尺寸。较小的贴片尺寸意味着 音响NER-晶粒增强在测试图像,而较大贴片尺寸意味着较粗的增强。因为自然图象也可能会在不同的高度和宽度,相对贴片尺寸 – 即涉及的贴片尺寸的测试图像的尺寸的无量纲的量 ,R – 是德音响定义为 :R = 个d。Pd I = 瓦特 2 p +h 2 p w i 2 + h i 2 ,其中 d, w和 h 分别表示对角线的长度,宽度和高度(以像素为单位),下标 p 和 i 分别表示补丁和测试图像。相对贴片尺寸也可以被认为是的接受的大小 网络连接视场的测试图像上。从结果可以观察到,当相对斑块尺寸减小时,物体边缘显得更锐利,但具有更多噪声的代价。但是,存在最佳补丁大小,从而得到具有最高PSNR或SSIM的增强图像(如图 9 和 10所示)。如果基于PSNR选择最佳补丁大小,

则生成的图像将具有最低的噪声级别,但清晰度较差。如果选择了最小的色块大小,则结果图像将具有最高的清晰度,可以观察到更多细节,但要付出更多噪声的代价。基于SSIM选择最佳的补丁大小,在去噪能力和图像清晰度方面会产生更加均衡的结果。 我们在其中显示了美国空军(USAF)分辨率测试图的自然测试图像。该测试图由三组不同大小的条组成,并标有数字,这些数字符合美国空军在1951年制定的MIL-STD-150A标准。最初,该测试图用于确定光学成像系统的分辨能力例如显微镜,照相机和图像扫描仪。对于本研究,我们使用该测试图在不同的相对色块尺寸下,在视觉上比较了权衡降噪能力和图像清晰度。结果示于 图10。



5.7。输入先验知识

无需任何输入参数即可轻松在图像上执行HE的。像HE,CLAHE也可以在没有任何输入使用 参数,其中性能可进一步 连接与各种其它参数,如片大小和对比度输出范围netuned。伽马调整和BM3D都需要输入参数(的值的前所知 γ 和 分别σ,),因此,通常需要到 Finetune参数通过试错法来达到最好的效果。采用深learning-为基础的方法的优点,具体来说使用LLNet和S-LLNet,是一个大品种的超参数选择合适黑暗和嘈杂的图像训练模型后,就没有必要进行细致的手-在测试/实际使用过程中进行调整。这有效地减轻了最终用户的负担。该模型会自动从弱光图像中提取并学习其基本特征。本质上,这项研究表明,经过深化处理且具有不同程度的变暗和噪声水平的深度模型可以用于许多现实世界中的问题,而无需了解照相机和环境的详细知识。



5.8。弱光图像的特征

为了了解模型学习了哪些特征,可以通过将权重将输入链接到 的训练第一层

矩阵的值绘制为像素强度值来可视化模型的权重(图11)。在同时学习对比度增强和去噪的常规LLNet中,权重包含具有明显粗糙外观的斑点状结构。解耦学习过程(对于S-LLNet)使我们可以获得更好的见解。我们观察到,当训练模型进行对比度增强任务时,会学习到类似斑点的结构。特征的形状建议对比增强考虑局部特征。如果区域较暗,则模型会根据补丁中的上下文(即是否存在对象的边缘)将其变亮。在另一方面,出现在去降噪任务功能的探测器类似噪声,尽管在一个 网络相对于从集成LLNet上较粗的人NER外观质感。这些特征表明,去噪任务主要以整体方式执行。请注意,虽然介绍的可视化 [21] 显示突出的Gabor样不同方位的功能,为去噪任务,加伯样,因为训练数据由多个噪声水平的功能在本研究中明显的,而不是一个 的固定一。突出显示了特征检测器与特征生成器之间的区别 图12 ,显示了优劣权重的比较 图13。



5.9。超参数,网络体系结构和性能

表3 显示了对90张合成暗图像进行评估后得到的平均PSNR和SSIM值,这些图像通过不同超参数和网络体系结构的训练模型得到增强。由于我们对整体图像增强性能感兴趣,因此对于报告的结果,我们使用具有最高SSIM而不是PSNR的实现。从结果来看,较小的批次大小会在更新过程中产生较大的梯度,并可能有助于避免在优化过程中出现局部最小值。因此,我们看到,有苏夫大小SSIM增加网络ciently小批量。对于批量大小不同的PSNR,没有观察到明显的趋势。的13的贴片尺寸A 13导致最高平均PSNR而17的贴片尺寸 导致最高SSIM17。该结果已在前面的部分中进行了讨论,并且与相一致 的相对补丁大小与PSNR和之间关系发现 SSIM,在这种情况下,最佳补丁大小的选择需要考虑图像清晰度与降噪能力之间的权衡。 。另一方面,必须选择隐藏层的数量,以使其充分捕获数据中的非线性(即架构不太浅),同时避免消失的梯度问题抑制学习(即架构不太深)。 。对于体系结构的宽度观察到相同的效果。 请注意,我们探讨了一次更改一个超参数如何影响模型性能。但是,如果我们使用独立发现的所有最佳超参数,则这种模型不一定会导致全局最佳性能。因此,可能希望随机探索超参数空间 [32] ,而不是以顺序方式进行搜索。



6.结论和将来工作

堆叠稀疏去噪自动编码器的一个变体被训练学习从各种合成实施例中的增亮和去噪用作 滤池然后将其施加到增强自然弱光和退化图像。结果表明,基于深度学习的方法适用于不同程度退化的自然弱光图像的此类任务。所提出的LLNet框架竞争有利地与目前使用的图像增强方法,如直方图均衡,CLAHE,伽马调整,和混合的方法,例如施加HE 第一个和随后使用国家的最先进的降噪如BM3D。尽管其中某些方法的性能在某些情况下仍具有竞争力,但我们的框架能够在各种(照明和噪声)情况下适应并始终如一地表现良好。这意味着深层自动编码器是有效的工具,无需手工即可从弱光图像中了解潜在的信号特征和噪声结构。设想的一些改进和未来的研究方向是:(i)用量化伪像进行训练以模拟更现实的情况; (ii)探索其他深层建筑,以实现自然的低光图像增强; (iii)包括去模糊功能,明确以提高图像细节的清晰度; (iv)训练模型具有鲁棒性,并能适应噪声类型的组合,并扩展到雾和多尘场景等弱光场景; (v)由一群人类使用者进行主观评估。 。



版权声明:本文为yangyoung1223原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。