2021-03-15 – 小飞侠

摘要

在我们的日常生活中，拍摄照片时我们不但要选择能拍的清晰的摄像机，而且还希望在同一场清下，我们所拍到的所有物体都是清晰的。但是由于摄像机会受到景深的限制，没有办法对拍摄的所有目标都聚焦，因此导致拍摄的照片聚焦部分是清晰的，但是不聚焦的部分就是模糊的，将同一个场景下拍摄的不同聚焦区域的图片融合成一张清晰图片的技术就是多聚焦图像融合技术，此项技术就可以很好地解决图像不清晰这一问题。更好地把图像的利用率提升起来。

传统的融合算法主要有基于空间域的算法和基于变换域的算法。多尺度变换的算法在多聚焦图像融合中应用比较广泛，

但由于部分算法在融合后产生细节信息丢失以及运算耗时较大等问题

。本文主要研究的目的是利用经典的融合算法结合卷积神经网络算法解决上述所存在的问题。针对现有多聚焦图像融合算法融合后出现边缘细节信息丢失这一缺陷，本文提出了一种基于

鲁棒性

主成分分析法以及

改进全

卷积神经网络的多聚焦图像融合融合算法，本文的主要研究内容如下：

（

1

）

针对多聚焦图像融合的基本概念，本文从多个方面介绍了多聚焦图像融合的经典算法以及近几年比较热门的算法。首先，对多聚焦图像融合的基本概念进行了基本阐述；其次，对多聚焦图像融合的经典算法和近几年热门算法的主要中心思想进行了详细阐述；再次，对以往经典算法以及热门算法中具有代表性算法的性能优越性以及不足进行了分析和总结；最后，对多聚焦图像融合的评价指标进行了说明。

（

2

）

对本文数据集的预处理过程进行了详细介绍，包括数据集的制作以及数据集的预处理；因为预处理作为图像融合的第一步也是主管重要的一步，为了展示其重要性，因此首先对

图像

的融合过程进行一定介绍，然后结合应用场景介绍了目前

数据集预处理的多种手段及方法

，最后，介绍了本文所运用的数据集预处理方法

。

（

3

）

针对目前多聚焦图像融合算法所存在的缺陷，本文提出了

改进的

全

卷积

神经网络的多聚焦图像融合算法。

较以往的全卷积神经网络模型来看，本文所设计的网络模型更加轻便、网络层级更少，在与目前运用较广泛的卷积神经网络模型相比，此模型在运行质量提升的情况下还保证了运算速度的提升

。首先，

采用

基于

鲁棒性

主成分分析法

（

Robust PCA)

下

对原数据集进行特征提取，相较于传统的全卷积神经网络，本文将目前经典的

siamese

网络结构的思路运用到本文中，将全连接层换为全卷积层，实现了图到图的实现，大大

提升了

运算速率

，通过softmax层对图像进行分类，最后通过

设置分类器

，防止像素点样本偏移。在多组实验的彩色灰色数据集验证下，本文所提出的算法与目前多聚焦图像融合的卷积神经网络算法相比，融合速度大大提升，更具有实际应用率，融合质量也有相应提升，说明了此算法相比其他算法更具运用价值。

关键词：多聚焦图像融合，全卷积神经网络，

RPCA

，数据集预处理

In Our daily life, when we take photos, we not only have to choose a clear camera, but also hope that in the same clean, we take all the objects are clear. However, because the camera is limited by the depth of field, there is no way to focus on all the objects in the shot, so the focus of the shot is clear, but the unfocused part of the shot is unfocused, multi-focus image fusion is a technique to fuse images of different focus areas in the same scene into a clear image. This technique can solve the problem of unclear image. To improve image utilization.

T

Traditional fusion algorithms are primarily based on spatial and transformation domains. Multi-scale conversion algorithms are widely used in multi-focus image fusion, but some algorithms lose detailed information and are time consuming. The main purpose of this article is to solve the above problems using classical fusion algorithms and convolutional neural network algorithms. A multifocal image fusion algorithm based on Robust Principal Component Analysis (RPCA) and an improved convolutional neural network is proposed to address the flaw that existing multifocal image fusion algorithms lose detailed edge information after fusion. The main content of this article is as follows:

(1) Aiming at the basic concept of multifocal image fusion, we will introduce the classical multifocal image fusion algorithm and some general algorithms in recent years. First, we will explain the basic concepts of multifocal image fusion, and then we will introduce in detail the classic multifocal image fusion algorithms and the main ideas of algorithms that have become popular in recent years. Third, the performance strengths and weaknesses of classical and common algorithms are analyzed and summarized. Finally, the evaluation index of multifocal image fusion will be described.

(2) This article introduces the dataset preprocessing process, including dataset creation and dataset preprocessing. Preprocessing is the first step in image fusion, so to demonstrate its importance, we first then combine the image fusion process with application scenarios to showcase preprocessing methods and methods for different datasets. Finally, I introduced the preprocessing method for the dataset used in this article.

(3) An improved convolutional neural network image fusion algorithm is proposed to overcome the shortcomings of the current multifocal image fusion algorithm. Compared to existing convolutional neural network models, the network model designed in this white paper is more portable and has less network layer. Compared to the convolutional neural network model that is widely used today, this model also guarantees that the convolutional neural network model will be faster. Operation quality is improved. First, the characteristics of the original dataset are extracted based on the robust PCA. Compared to traditional convolutional neural networks, this paper adopts the current classic Siamese network structure, replacing fully connected layers with fully convolutional layers, achieving inter-graph realization and computational speed. Significantly improved and performed image processing. Classification. Through the softmax layer, the classifier is ultimately set to prevent pixel sample migration. Compared to existing multi-focus image fusion algorithms, this algorithm has higher fusion speed, higher practical application rate, and higher fusion quality, which makes it more valuable than other algorithms. Shows that it has.

Keywords: Multi Focus Image Fusion, convolutional neural network, RPCA, data set preprocessing

1.绪论

1.绪论

1.1 研究背景和意义

随着电子技术，计算机技术和大规模集成电路技术的飞速发展，传感器技术不断发展，并在军事和民用领域得到了广泛的应用[1]。多个传感器的协作已大大增加了所收集信息的类型和数量，从而使得难以将传统的单传感器信息处理方法应用于大数据处理[2.3]多传感器。信息处理是单传感器信息处理的问题。信息处理方法该方法利用系统中多个传感器在空间和时间上的冗余互补性进行多方面，多层次和多层次的综合处理。获得更丰富，更准确，更可靠和有效的信息[4]。

图像融合，也称为多传感器图像融合，主要关注图像信息，属于信息融合领域。与传感器，图像处理，信号处理，计算机和人工智能不同，图像融合领域被认为是上述某些领域的交叉研究领域[5]。从不同类型的传感器或同一传感器在不同时间或以不同方式捕获的特定场景中注册Doford图像，并使用特定算法将它们融合在一起，以进行场景中的新更新。得到它。清晰的图像，这是图像融合的基本理论。克服单个传感器图像在分辨率，形状和光谱方面的差异和局限性，以更好地识别，理解和识别事件和物理。 1979年，Daily等。首先将雷达和Landsat.MSS图像合成后的图像用于地质解释。可以将处理过程视为最简单的图像融合。在1980年代初期，图像融合技术被用于遥感多光谱图像的分析和处理，而在1980年代后半期，图像融合技术被应用于诸如可见光图像和红外图像的一般图像处理。它成为了。在1990年代初期，图像融合技术被广泛用于遥感图像处理中。由于聚焦范围有限，光学传感器成像系统无法清晰地成像场景中的所有对象。当一个物体在成像系统的焦点上时，其在图像平面上的图像清晰，但是在同一场景中，该物体在图像平面上其他位置的图像却是模糊的[6.7]。光学透镜成像技术的飞速发展提高了成像系统的分辨率，但是不能排除焦距范围限制对整体成像效果的影响，从而使同一场景中的所有物体变得清晰。这变得越来越难。同时，它在像平面上成像。对于图像的准确分析和理解很有用[6]。而且，分析相对大量的相似图像不仅浪费时间，而且消耗了设备内存[7]，这不可避免地浪费了存储空间和能量。获取同一场景中所有物体的清晰图像，使场景信息更全面，更真实地反映的方法，对于准确分析和理解图像具有重要的研究意义。图像融合包括四个主要类别：

（

1

）

多聚焦图像融合

大多数成像系统（例如DSLR相机）具有有限的景深，这使场景的内容在距成像平面有限的距离内聚焦。具体地说，接近或远离焦点的对象在图像中显得模糊（无法聚焦），某些对象会导致整个图像不清晰。多焦点图像融合（MFIF）旨在从同一场景中的两个或更多个部分聚焦的图像中重建一个完全聚焦的图像。通常，会拍摄局部聚焦的照片。这意味着，如果在拍照时单击某个特定位置，则该位置将处于焦点位置，其余位置将失去焦点。可以将图像聚焦在多个部分上将图像组合在一起以形成一个完全聚焦的图像。

图1-1为多聚焦图像融合示例。

图1-1 多聚焦图像融合示例

Figure 1-1 example of multi-focus i

mage fusion

（2）遥感图像融合

遥感图像融合是以下过程：处理来自多个远程传感器的图像数据和其他信息，根据特定规则（或算法）在空间或时间上处理其冗余或互补的多源数据。专注于做。获取更准确，更丰富的信息。生成比单个数据具有新的空间，光谱和时间特征的合成图像。这不仅是数据的简单组合，而且强调有用的主题信息，消除或抑制不相关的信息，并强调信息优化以改善目标识别的图像环境。提高解释的可靠性，减少歧义（即歧义），改善缺陷，不确定性，错误），改善分类，并扩大应用范围和有效性。遥感图像数据融合是处理来自多个遥感器的图像数据和其他信息的过程。重点是根据特定规则（或算法）在空间或时间上处理这些冗余或互补的多源数据。它提供的信息比单条数据还多，并且可以生成具有新的空间，光谱和时间特征的合成图像。

图1-2为遥感图像融合示例

（a）多光谱图像（b）全色图像（c）融合图像

图1-2 遥感图像融合

Figure 1-2 Remote Sensing Image Fusion

（3）红外与可见光图像融合

在检索场景中的目标信息时，可以说红外检测器处于活动状态，并且可以在白天或晚上正确显示隐藏的热目标。但是，它受场景本身的辐射特性，长时间的系统运行，传输距离和大气衰减的影响。红外图像对比度低，空间相关性强，对目标细节的响应差。可见光探测器可以弥补红外探测器的缺点，即具有低功率图像对比度和不足的目标细节反射能力。然而，当在场景中捕获目标信息时，可见光检测器通常是被动的，并且在黑暗或恶劣的天气下所捕获图像的质量很差。红外图像可以弥补可见光图像的这些缺点。图1-3显示了红外和可见光图像融合的示例。

可见光图像（b）红外图像（c）融合图像

1-3红外与可见光容和图像

Figure 1-3 infrared and visible light features and images

（

4

）

医学图像融合

医学成像已成为现代医学不可或缺的一部分，其应用遍及整个临床实践，不仅在诊断疾病，规划，设计和实施外科手术和放射治疗程序中都发挥着重要作用。并评价疗效。当前，医学图像可分为两部分：解剖图像和功能图像。解剖图像主要描述人体的形状，包括放射线图像，CT \ MRI \ US，以及各种内窥镜（例如腹腔镜和喉镜）拍摄的一系列图像。此外，还有一些特殊的关系来自X射线成像，来自X射线成像的DSA，来自MRI技术的MRA和来自US成像的多普勒成像。功能图像主要描述人体的代谢信息，例如PET \ SPECT \ FMRI。也有通用的或较少使用的功能成像方法，例如EEG，MEG和FCT。

图1-4为医学图像融合示例

MRI （b）CT （c）融合图像

图1-4 医学图像融合示例

Figure 1-4 medical image fusion example

作为多源图像融合的重要领域，多焦点图像融合是解决成像系统中焦距限制的有效方法[8]。该方法主要用于在相同成像条件下通过同一光学传感器采集到的具有不同焦点目标的多福图像的融合处理。使用特定的融合算法提取特定场景中不同对象的已注册多福聚焦图像。这些聚焦图像的清晰区域对场景中的所有对象都是透明的。它统称为融合图像[9-11]。多焦点高光融合技术可使不同图像距离处的物体清晰地显示在图像中，为特征提取，目标识别，跟踪等以及图像信息的使用和系统可靠性奠定了良好的基础。有效提高。它扩大了时间和空间的范围，并减少了不确定性[10]。它在遥感技术[12，13]，医学成像[14-16]，军事行动和安全监视[17-19]领域中具有广泛的应用。

1.2 国内外研究现状

早期的小波变换技术被广泛应用于图像融合处理中，以克服金字塔变换的缺点，例如大量的冗余数据。在1990年代中期，诸如Sweldens之类的学者提出了提升小波变换。与传统的小波变换相比，所有提升小波计算都是在空间域中进行的，并且运算速度更快，因此也将其引入融合领域，从而提高了内容和有效性。小波变换具有多分辨率和时频定位的优良特性，但是传统的小波变换仅具有点奇异点，并且只能捕获有限的方向信息，从而导致丰富的方向纹理。高维奇点不能有效地反映出来。为了克服传统小波的缺点，诞生了多尺度几何变换。它被广泛使用，因为它可以最佳地表示某些高维函数的奇点。到目前为止，多次转换包括Meyer和Coifman在1997年提出的Brushlet，Dohono提出的Wedgelet和Candes在1998年提出的Ridgelet。（Ridgelet变换），Candes和Dohono提出的1999 Curvelet，Pennec和Mallat在2000年提出的Bandlet， Huo于2001年提出的Beamlet，Do和Vetterli于2002年提出的Contourlet。），Velisavljevic于2004年提出的Directinlet，Guar和Laborate于2005年提出的Shearlet，Lu和Do于2006年提出的SFCT（夏普频率局部化Contourlet变换），NSCT Cunha提出的非下采样Contourlet变换（非下采样Contourlet变换），Lim于2010年提出的NSST（非下采样的Shearlet变换）等。在过去的几年中，学者们将多尺度几何变换应用于图像融合领域。 2007，Nencini F.等人将Curvelet变换应用于遥感图像融合，融合效果优于基于小波变换的图像融合算法。刘胜鹏等。提出了基于Contourlet变换和改进的脉冲耦合（IPCNN）的红外和可见图像融合算法，以实现出色的视觉效果。屈小波等。提出了一种基于SFLCT变换的图像融合算法，以改善拉普拉斯能量和多焦点图像。融合效果优于基于Contourlet变换的融合算法，但是融合图像引入了“伪像”。一些学者还提出了一种基于NSCT的多焦点图像融合算法，以及一种基于NSCT和空间频率激励脉冲耦合神经网络（PCNN）的图像融合算法。融合效果优于基于Contourlet变换的图像融合算法。和SFLCT转换。但是，该算法运行了很长时间。王朝晖等。提出了一种基于Shearlet变换和PCNN的图像融合算法。尽管它比基于NSCT转换的效果更有效，但它还会在融合图像中引入“伪像”。高国荣等。提出了一种基于NSST转换的红外与可见光图像融合算法。上述图像融合算法部分验证了多尺度几何变换不仅继承了小波分析的优越性，而且克服了小波变换的缺点，可以更好地描述图像。正在做。然而，总的来说，多尺度几何变换理论仍处于准备阶段，其在图像融合领域的应用仍需进一步研究和扩展。

随着图像融合和深度学习领域的发展，专家学者将深度学习算法应用到了图像融合领域。由于具有良好的特征提取能力，将卷积神经网络(CNN)作为应用到图像融合任务中。文献

【

20

】

提出将 CNN 应用于多聚焦图像融合任务中。该文献提出了一种基于 CNN 的多焦点图像融合方法，该方法成功摆脱了手动设置融合规则的限制。文献

【

20

】

中 H. Tang 提出使用逐像素卷积来进行图像融合。文献素卷积来进行图像融合。文献

【

21-22

】

中 M. Amin-Naji 提出了具有整体学习策中 M. Amin-Naji 提出了具有整体学习策略的基于投票的方法进行图像融合。文献方法进行图像融合。文献

【

23

】

中改进了 CNN 模型，使其避免了在训练网络过程中消耗的大量资源，采取了全卷积层结构对图像特征进行提取，以降低模型的复杂性。

在图像融合应用方面，最早是美国将卫星侦察多传感器图像传回地面进行融合，即早期的遥感图像融合。美军应用对应融合规则将多光谱与全色图像融合得到清晰遥感图像供研究使用。军事领域中，美国自动化技术系统(C3I)可以将侦察获得的红外和可见光图像进行图像堆叠，获得人眼视觉上清晰的侦察图。2008 年，美国德州仪

器公司自主研发了全自动图像融合设备，在 C3I 的基础上更新了融合规则，对红外和可见光图像进行更清晰快捷的全自动化融合，被应用到实际军事活动中，可在夜晚环境下提高多兵种多领域行动效率。医学领域中，图像融合主要应用在核磁共振图像(MRI)和电子计算机断层扫描图像(CT)的融合任务中，旨在将 MRI 图像中的器官结构和 CT 中的软组织结构，如骨骼合并到一起，得出清晰的病理诊断图像，帮助医生更精确地对疾病进行确诊，减少诊断错误率。

国内图像融合发展于二十世纪末，文献【

24

】于

1995年在国内首次提出了多光谱图像融合，为国内图像融合奠定了基础。文献【25】于1996年将图像融合技术应用到医学中，拓宽了图像融合在国内科学领域的应用场景。之后国内图像融合技术快速发展，基于空间变幻的图像融合技术【

26

】和基于小波变换的图像融合技术【27】在不久后分别被提出，随后，图像融合在国内各个学科中均得到快速发展，并且与国际研究接轨，对我国科技发展和经济建设具有重要意义。

1.3 本文主要工作内容

本文针对多聚焦图像融合算法上的改进进行了深入研究，通过利用目前热门算法与喜欢同算法PCA相结合，以达到保留下更多细节信息的目的，使得无论是在运行速度还是融合质量上都有所提高，本文的只要工作内容如下：

（

1

）

结合图像融合信息技术的研究背景和意义，也对多聚焦图像融合的研究现状进行了详细的介绍，针对传统算法以及运用较多的热门算法也进行了详细分析。

（

2

）

图像融合整个步骤较为复杂，图像预处理作为第一步也是至关重要的一步，本文也详细介绍了数据集的制作以及数据集的预处理，分析应用场景，

指出了本文

数据集制作方法。

（

3

）

本文在基于全卷积神经网络算法优势的基础上，再结合传统算法的优势，提出了一种基于

R

PCA与全卷积神经网络的多聚焦图像融合算法。避免了传统算法在运算速率较低以及卷积神经网络算法丢失边缘信息这一缺陷。

采用

基于

鲁棒性

主成分分析法

（

Robust PCA)

下

对原数据集进行特征提取

,

将全连接层换为全卷积层，实现了图到图的实现

,

通过softmax层对图像进行分类，最后通过

设置分类器防止样本偏移通过设计的网络结构，对数据进行训练，最终得到决策图，得出融合结果。

1.4 本文结构安排

本文主要针对多聚焦图像融合算法现目前存在的问题，解决方案以及结合卷积神经网络的相关知识，包括图像预处理、图像数据融合、最后再到主客观评价，全文包括五章，具体如下：

第

1

章

绪论。对图像融合研究背景、意义进行阐述，又对目前多聚焦图像融合的国内外研究现状进行了详细介绍。

第

2章

多聚焦图像融合概述。对多聚焦图像融合的层次划分进行了介绍说明，详细介绍了像素级融合算法以及四

种

融合方法，并对四种方法进行了展开分析。

第

3章

图像预处理概述。结合多聚焦图像融合，有针对性的介绍了数据集的制作与预处理，总结了数据集制作与数据集预处理应用的场景以及优缺点。

第

4章

基于

R

PCA与全卷积神经网络的多聚焦图像融合。本章主要研究了

R

PCA算法的原理知识以及全卷积神经网络的网络结构。首先介绍了

R

PCA算法的相关知识，然后分析了经典卷积神经网络的网络结构，最后将

改进的全卷积神经网络

与

R

PCA算法相结合成本文的目标算法，在此算法上针对多组数据来源的图像进行比对验证，验证了此算法的有效性。

第

5章

总结与展望。对本文所提出的基于PCA与全卷积神经网络的多聚焦图像融合算法进行总结与分析，对

还

存在的问题进行总结与

分析。

1.5 本章小结

本章首先介绍了图像融合的研究背景和意义，分类展示了多聚焦、红外与可见光、医学图像的融合相关知识；其次介绍了图像融合研究现状；然后阐述了本文的主要工作内容以及结构安排。

2

.

多聚焦图像融合概述

2.1多聚焦图像融合的层次划分

根据多焦点图像融合过程的阶段，可以将聚合物图像融合分为三个级别：像素级图像融合，特征级图像融合和决策级图像融合。

像素级图像融合过程如图2-1所示。此级别的图像融合直接使用适当的融合算法来处理原始图像的灰度数据。主要目标是图像增强，图像分割和图像分类。 29-31]。像素级图像融合是其他级别图像融合的基础，也是图像融合领域的热点。与其他级别的图像融合相比，像素级图像融合最大程度地提高了源图像的原始信息，具有最高的融合精度，更丰富，更准确和更可靠的图像。可以获取详细信息。但是，这些好处很耗时。由于对源图像的对准精度有很高的要求，融合过程需要处理大量的详细图像信息，处理时间较长，并且难以实现实时处理。

图

2-1像素级图像融合过程

特征级图像融合过程如图2-2所示。此级别的图像融合从源图像中提取特征，并将提取的特征信息（拐角，纹理，线条，边缘信息等）转换为特征向量。执行融合过程以准备决策级融合[32-34]。特征级图像融合属于中间级图像融合，它在融合过程中保留了足够的重要信息，对图像信息进行了显着压缩，易于实时处理，并最大化了决策分析所需的特征信息。可以转换。但是，在融合过程中进行大规模信息压缩很容易导致有用信息的丢失。常用的特征级图像融合方法包括主成分分析，神经网络，聚类分析和贝叶斯推断，这些方法主要用于图像分割和目标检测[17]。

图

2-2特征级图像融合过程

决策级图像融合过程如图3-3所示。根据多传感器图像的独立确定性和可靠性，此级别的图像融合可分类和识别由多个传感器捕获的同一场景的不同成像特征。图像融合过程性能很高，融合结果可直接用作决策者的参考[35-37]。决策级融合属于更高级别的图像融合。在融合过程中处理的对象是各种特征信息，具有强大的实时，分析和容错能力。此外，决策级图像融合可以高效地表示不同类型的信息，例如环境和目标，具有高灵活性，低流量和强大的抗干扰然而，其预处理成本很高，在融合过程中原始图像信息的损失很大，受决策者的需求所限制，并影响了其传播和应用范围。常用的方法包括投票方法，统计方法，模糊逻辑方法和Dumpster-Shaferz推断方法[2]。

图

2-3决策级图像融合过程

像素级图像融合在融合过程中提供的信息丢失更少，并且可以提供其他融合级别无法提供的更多信息。融合的结果是一幅图像，使观察者可以更快，更直观，更全面地识别图像中的场景，从而有助于进一步分析，处理和理解图像[38，39]。像素级图像融合是图像融合领域研究最多的主题之一。为了便于对不同融合方法的性能进行比较分析，本文将仅使用两个源图像执行多焦点图像仿真实验。实验源图像来自标准的多焦点图像测试集[40，41]。

2.

2

多聚焦图像像素级融合算法

根据多焦点图像融合的特性以及后续图像处理的各种需求，一种好的融合算法必须遵循三个基本原则：

（1）融合算法必须能够在源图像中完全保留显着特征信息，例如边缘，纹理和其他信息。

（2）融合算法应尽可能减少无关或不一致信息的引入，以免影响图像质量和融合图像的后续处理。

（3）融合算法必须对源图像中的配准错误和噪声具有鲁棒性。

如今，大多数多焦点图像融合算法都是基于以上三个基本原理设计的。多焦点图像融合算法的关键是准确确定聚焦区域的特征，并准确识别和提取聚焦范围内的区域。这也是多焦点图像融合技术的问题之一。尚未很好解决。多年来，国内外学者提出了许多性能优异的算法，用于在多焦点图像的像素级融合过程中选择和提取焦点区域。这些算法分为两大类[42]。空间域多焦点图像融合算法和变换域多焦点图像融合算法。其中，空间域图像融合算法在源图像的像素灰度空间中运行。变换域图像融合算法对源图像进行变换，根据融合规则对变换因子进行处理，并对处理后的变换因子进行逆变换，如下所示：获取融合图像。多焦点图像融合过程如图2-4所示。

图

2-4 多聚焦图像融合过程

2.2.1 空间域多聚焦图像融合算法

空域多焦点图像融合算法是在像素灰度空间中实现的融合算法。该方法根据源图像中像素的灰度值使用各种焦点区域表征方法，以提取焦点区域中的像素或区域，并根据融合规则获得融合图像。该算法的优点是该方法简单，易于执行，计算复杂度低，并且融合图像包含源图像的原始信息。缺点是容易受到噪声干扰，并且容易产生“阻塞效应”。

空间域多聚焦图像融合算法主要分为两类：基于像素点的融合算法和基于区域的融合算法。

基于像素的融合算法主要包括加权系数法和域窗法。加权因子方法根据像素的灰度值的大小来计算像素的加权因子。鲍威尔的G [43]根据单个像素的灰度值计算加权因子。主成分分析（PCA）[44]是加权平均融合方法，如图2-5所示。这是按行或列对图像进行优先级排序的更常用的方法。形成列向量，并且协方差如下所示：计算列并根据协方差矩阵选择特征向量。如果源图像相似，则此方法类似于均值融合。如果源图像时间具有某些共同特征，则可以获得更好的融合效果。如果源图像时间特性非常不同，则很容易引入。融合的图像错误的信息会导致融合结果失真。该方法计算简单且快速，但是单个像素的灰度值不能代表其所在图像区域的焦点特性，从而导致轮廓模糊和对比度降低。发生。域窗口方法根据像素域窗口的显着特征级别选择像素。典型的邻居窗口大小为3 * 3 [45]，5 * 5 [46]和7 * 7 [47]。李志等。 [48]是一种基于2003年像素聚焦特性的多聚焦图像融合算法，使用了所有像素的可见性（VI），空间频率（SF）和边缘函数（Edge）。建议的。功能的组合EF）用作单个像素的焦点特性。通过比较单个像素的焦点特性来进行像素选择。邻域窗口方法综合考虑了灰度值。改善了焦点区域中像素选择的准确性，以改善单个像素与其相邻像素之间的相关性，从而改善了融合图像的质量。但是，当这种方法计算单个像素的焦点特性时，它等效于“重新分配”每个像素，从而导致融合图像中相邻像素之间的一致性变得更低。另外，这种方法对噪声敏感，会错误地从源图像中选择像素[49]。

图

2-5 PCA图像融合原理图

针对基于像素的融合方法的问题，学者们提出了基于区域的多焦点图像融合方法。基本思想是基于源图像的划分来评估每个区域的聚焦特性，并合并聚焦区域以获得融合图像[50]。基于区域的多焦点图像融合方法可以分为两种类型：基于区域的融合方法和基于块的融合方法，因为它们需要考虑两个主要问题：区域划分和区域选择。 ..

基于区域分割的图像融合算法利用区域一致性将源图像划分为不同的区域，计算每个区域的焦点特征，并根据相应的融合规则对焦点区域进行合并，得到融合图像。去做。 Li S [51]使用法线分割算法对源图像进行分割，并通过计算每个区域的空间频率来确定焦点区域。这提高了定位精度和融合质量。但是，算法更复杂且运行相对较慢，因此它们对实时处理没有用。研究人员提出的改进方法主要包括基于水平集的方法[52]，分区和合并方法[53]，K均值[54]和基于模糊聚类[55]的方法。这些方法可以更准确地提取焦点区域并提高融合图像的质量，但是它们相对依赖于所使用的分割算法的性能，计算复杂且速度慢。它并没有真正的帮助。 -多焦点图像的时间处理，难以宣传和应用。另外，分割算法基于场景对象的区域一致性。如果场景对象位于焦点和散焦区域的交界处，则分割后的焦点区域将在相邻的散焦区域中包含一些像素。它降低了Fusion的图像质量[56]。

基于块的图像融合算法将源图像划分为多个图像子块，计算每个子块的聚焦特性，并根据相应的融合规则对聚焦子块进行合并，得到融合图像。 ..图2-6显示了基于分割的多焦点图像融合过程。

图

2-6 基于块划分的多聚焦图像融合原理图

2.2.1 变换域多聚焦图像融合算法

由于空间域多焦点图像融合方法的图像细节性能有限，因此研究人员提出了一种基于转换域的多焦点图像融合方法，并尝试使用多尺度转换方法实现图像融合。 .. ..多尺度转换方法更符合人类视觉认知的特征，因此它提供了人类视觉敏感和强烈的对比度相关信息，可用于生成高质量的融合图像。 ..

基于变换区域的图像融合方法对源图像执行多尺度变换，并将源图像分解为高频子带系数和低频子代系数。根据不同的融合规则，对每个后代的变换系数进行融合，并对每个融合后的子带系数进行逆变换，得到融合后的图像。图2-7显示了基于变换域的多焦点图像融合过程。

图2-7 基于变换域的多聚焦图像融合过程

根据各种多尺度变换方法，可以将变换域多焦点图像融合算法分为基于金字塔变换的融合算法和将小波变换（Laplacian Pyramind，LPA）引入图像融合。该系数由最大绝对值原理确定。融合，获得更好的融合结果。接下来，使用图像融合算法，例如低通率金字塔变换，对比度金字塔变换和形态金字塔变换。虽然这些算法取得了良好的结果，但它们也具有诸如分解层之间的冗余数据，无法确定每个分解层的数据相关性，提取细节的能力差以及高频信息之类的缺点。它已严重丢失。

考虑到金字塔变换的缺陷，研究人员提出了一种基于DWT的图像融合方法。 DWT还是一种多尺度转换方法，并且由于其出色的时域和频域特性而被广泛用于图像融合领域。基于小波变换的图像融合方法得到了广泛的应用，取得了较好的融合效果，但是图像中奇异点的表示是最优的，但是图像中奇异线和曲面的表示是稀疏的。你不能。随着多尺度几何分析理论的发展，不断有新的多尺度几何分析方法应用于图像融合领域，以提高融合图像的质量。为了进一步提高基于多尺度变换的图像融合方法的性能，研究人员试图结合不同的多尺度变换方法或将多尺度变换方法与其他方法结合以实现图像融合。在合成上述变换域多焦点图像融合算法时，其缺点主要表现在分解过程复杂，耗时，高频系数占用空间大，信息丢失简单等方面。近年来，在多焦点图像融合领域中出现了几种新的融合方法。视网膜启发模型，稀疏表示，形态技术，未采样的剪切波，奇异值分解等。

2.3多聚焦图像融合质量评价

近年来，图像融合在各个领域中的应用得到迅速发展，并且对于相同的源图像和相同的源图像，可以通过不同的融合方法获得融合图像。如何客观，系统和定量地评估这些融合图像的质量，对于融合算法的选择和改进以及新融合算法的设计非常重要。由于图像的类型，观察者的兴趣以及任务要求的影响，当前的融合质量评估问题尚未得到完全解决。在融合图像质量评估中，研究人员提出了许多算法，这些算法主要用于图像采集过程的质量控制，图像处理系统的设计以及图像处理系统和图像处理算法的基准测试。但是，到目前为止，还没有将主观和客观因素结合在一起的通用图像质量评估系统。常用的融合质量评估可分为主观评估和客观评估。

2.4.1融合图像质量主观评价

融合图像的主观评估是一种高度主观的视觉检查方法，该方法针对人类，评估融合图像，并根据融合图像的保真度和清晰度评估融合图像的质量。 ..由于人类视觉对颜色差异和图像边缘的变化敏感，因此主观评估方法可评估图像信息中的明显差异，例如配准错误，颜色失真和边缘断裂所导致的重影。它将更加主观，更快，更方便。，这样的。但是，由于图形的类型，观察者的兴趣，任务的要求以及外部环境的影响，主观评价是高度主观的并且是单方面的。尽管可以从大量统计数据中获得相对准确的质量评估，但是该过程需要大量时间，人力资源和物力，而且非常复杂。表2.1是国际认可的主观视觉评估标准。 9点系统和11点系统可以看作是5点系统的扩展，但是它们比5点系统更精确。 [57]。

分值	质量尺度	妨碍尺度
5分	非常好	丝毫看不出图像质量变化
4分	好	能看出图像质量变化但不妨碍观看
3分	一般	能清楚地看出图像质量变化，对观看稍有妨碍
2分	差	对观看有妨碍
1分	非常差	非常严重的妨碍观看

2.4.2融合图像质量客观评价

在大多数情况下，很难主观正确地评估融合图像中的细微差异。为了更准确地评估融合图像的质量，研究人员提出了几种客观评估指标，并且客观评估指标和主观评估值的结合消除了主观因素的干扰并将其融合。需要确保图像质量评估的有效性，准确性和稳定性。通常用于融合图像质量的客观指标是：

1.信息熵

图像信息主要用于测量融合图像的信息丰富度。值越高，融合图像中包含的信息越丰富，融合图像的质量越高。图像信息熵的定义如下：

（2.1）

其中，N为图像总的灰度级数，

为图像中像素灰度值i在图像中出现的概率（通常去灰度值i的像素个数与图像总像素数的比值）。

2.峰值信噪比（Peak-to-Peak Signal-to-Noise Ratio,PSNR）

峰值信噪比主要反映图像信噪比的变化，并用于评估图像融合后信息量是否增加以及是否抑制了噪声。图像的峰值信噪比定义如下：

（2.2）

其中，图像大小为M*N，

图像中的最大灰度，

为融合图像中的像素，

为标准参考图像中的像素。

3.互信息（Mutual Information，MI）【58】

互信息可用于测量融合图像从源图像继承的信息量。值越高，融合图像从源图像获得的信息越多，融合图像的质量越好。图像A和图像B以及融合图像F信息量MI定义如下。

(2.3)

(2.4)

（2.5）

其中，a,b和f分别代表源图像A,B和融合图像F中的像素灰度值；

，

和

表示A,B和融合图像F中的概率密度函数，可由图像灰度直方图估计得到；

表示源图像A,B和融合图像F的联合概率密度函数，这可以通过归一化的联合灰色直方图来估计。

4.结构相似性（SSIM）[59]

结构相似性主要是根据人类的视觉特征，亮度，对比度和结构来评估两个图像的相似性。值越高，两个图像越相似。结构上的相似性定义如下：

（2.6）

其中，A表示标准参考图像，F表示融合图像。在式（1.6）中，SSIM由三部分构成，从左到右分别表示亮度相似值、对比度相似度和结构相似度，

分别表示A和F的均值；

分别表示A和F的标准差；

表示A和F间的协方差；

和

分别表示亮度、对比度和结构三部分的比例参数；

表示常数。因此，源图像A,B和融合图像F间的相似度SSIM（A,B,F）可表示如下：

(2.7)

5.通用图像质量指数（UIQI）[60，61]

典型的龋齿图像质量评估始于人眼的视觉特征，并评估两个图像之间在相关性，亮度和对比度方面的差异。它是通用的，因为它可以更好地反映图像之间的相似性。值越高，两个图像之间的相似度越高。通用质量评估（UIQI）的定义如下：

（2.8）

其中，A表示源图像，F表示融合图像，

表示A和F间的协方差，

分别表示A和F间的标准差。因此，源图像A，B和融合图像F的相似程度

可表示如下【62】

(2.9)

6.加权融合质量指数（WFQI）[62]

加权融合质量会标组用于测量从每个原始图像传输到融合图像的重要信息的数量。值越高，从源图像AuntZhu合并的图像中的信息越重要。加权融合质量指数（WFQI）定义为：

（2.10）

其中，A和B表示源图像，F表示融合图像，

表示源图像在窗口w内的某种显著特征，

表示源图像A相对于B在窗口w内的某种显著特征。

7.边缘相关融合质量指数（EFQI）[61]

边缘融合质量指数主要根据人类对边缘信息的视觉敏感性来评估融合质量。边缘融合质量指数（EFQI）定义如下：

(2.11)

其中，A,B表示源图像，F表示融合图像，

表示A,B,F所对应的边缘图像，

表示边缘图像对原始图像的贡献，其值越大，表示边缘图像的贡献越大。

8.边缘保持度融合质量指标

【61】

边缘保存融合质量指数主要通过测量传输到融合图像的原始图像中的边缘信息量来评估融合图像的质量。边缘保持度融合质量指标

的定义如下：

(2.12)

其中，M,N为图像大小

，

分别为融合图像相对于源图像A和B的边缘保留值，

，

为边缘强度函数。

表示融合图像相对于源图像A和B的整体信息保留量，其值越大，表明融合图像保留的源图像边缘信息量越多，融合图像越高，融合算法性能越好。

根据研究人员的长期实验和经验[44,63,64]，图像互信息MI和边缘保留的结合使用可以客观，准确地评估融合图像的质量。，广泛用于评估。融合图像的质量。而且，在大多数情况下，这些常用的指示器可以准确评估融合图像的质量。为了更准确地评估融合图像的质量，在实际应用中，研究人员采用了评估策略，以补充其主观位置和客观性。

2.4 基于卷积神经网络的多聚焦图像融合方法

2.4.1 PCNN模型

PCNN是

Eckhorn

R【65】根据猫、猴等哺乳动物视觉皮层中的同步脉冲和发放现象而提出的一种新型生物学神经网络。具有动态脉冲发放引起震动与波动、时空总和以及非线性调制等优良的视觉神经网络特性，比较符合人类视觉系统的生物学原理。因此，PCNN被广泛应用于计算机视觉和图像处理等领域。PCNN的同步脉冲和全局耦合特性使得当前PCNN神经元点火产生的输出在其他神经元上不断地扩散和传播，从而形成以最先点火神经元为波动中心，携带图像局部显著信息并贯穿整幅图像的自动波。该特性非常有利于多聚焦图像聚焦区域特性的判定。1999，Broussard RP等[66]在目标识别研究中首次将PCNN用于图像融合。这不仅提高了准确性，而且验证了PCNN用于图像的可行性。在以前的算法中，基于PCNN点火次数确定多焦点图像的焦点区域特征。

（1）PCNN神经元模型

在1990年，Eckhorn R提出了一个简化的神经元模型来显示脉冲发射现象，但是从图像处理的角度来看，神经元模型有一定的局限性和缺陷，其非线性特性对于网络的数学分析没有用处。。特征。对于基于多个参数且具有更高复杂度的基于空间接近度的相似亮度的像素簇的生成机制，尚无明确的数学描述。许多神经元模型参数需要设置且难以调整，这极大地影响了使用PCNN模型的效率。研究人员还提出了一种简化的模型，可以简化和改进模型[67]并产生更好的结果。

从图2-6中，简化的PCNN神经元模型将外部输入刺激直接输入到神经元中，从而保留了原始模型的某些优越功能，同时减少了模型参数，同时提供了可接收域泄漏积分器。可以看到它已被删除。它进一步促进了图像信息的处理。参数模型的迭代方程表示为：

（2.13）

（2.14）

（2.15）

（2.16）

（2.17）

在PCNN神经元模型中，如果U>，则神经元触发以产生脉冲输出，而反馈会迅速增加动态阈值。如果U <，则脉冲发生器关闭，脉冲停止。动态阈值随着迭代次数n的增加呈指数衰减。如果U>，则神经元再次激发以产生脉冲输出。这样的迭代过程是PCNN的基本操作原理。

PCNN是由多个PCNN神经元的互连结构组成的单层二维神经元阵列。随着迭代次数n的增加，链接权重矩阵W从单个或多个神经元向相邻的神经元发送脉冲信号并调整大小。神经元通道F和L的信号变化会预先增加相邻神经元的内部活动项目U。如果U>，则神经元激发以产生脉冲输出。因此，PCNN可以自动发送和合并信息，并且此功能有助于图像信息的融合。

当PCNN处理图像时，通常假定网络中的PCNN神经元与图像像素一一对应，并且数目相等。神经元是每个神经元及其邻居的连接权重矩阵，位于矩阵的中心。在权重矩阵中，相邻神经元之间的连接如图2-8所示。图2-8（a）显示了4个域连接，图2-8（b）显示了8个相邻的神经元。相邻神经元之间的欧式距离和神经元之间的连接权重的倒数可以表示为：

(2.18)

（a）4邻域链接（b）8邻域链接

图2-8 PCNN神经元链接

在图像处理过程中，PCNN将像素点的灰度值作为PCNN神经元得外部输入，而连接强度

的大小与像素点的灰度值无关。但随着连接强度

的增加，神经元捕获的像素亮度范围变大，同时点火的神经元数目也随之增加。当链接强度

和通道L的参数固定时，亮度强度越相近的像素，其对应的神经元越容易被捕获。图像中像素的位置、亮度和强度越接近，其对应的神经元越容易同时点火，这使得PCNN具有全局耦合同步脉冲的特性。但是该方法较好地保留了源图像的边缘和纹理信息，却引入了“块效应”，降低了融合对比度。

2.4.2 Siamese Network

暹罗语有点像中文。暹罗语（Siam）是古老的泰语名称，中文被翻译为暹罗语。暹罗语也是“暹罗语”或“泰国语”人。暹罗语在英语中是“ twin”和“ union”的意思。暹罗网络是一种特殊的神经网络，是最简单，最常用的单次学习算法之一。简而言之，暹罗网络是“耦合神经网络”，而“耦合”神经网络是通过共享权重实现的，如下图2-9所示。它也可以表示为：

（2.19）

Siam网络的输入是对（X1，X2），它们的二进制标记Y∈（0,1）指示输入对是实对（相同）还是非对（不同）。表明。从下表中可以看到，我们将语句作为对使用，Label指示语句对是（1）还是错误（0）。如表2-2所示。

图

2-9暹罗网络图

表2-2

如果实现代码，则它可以在同一网络上。由于所有权重都相同，因此无需实施单独的网络。对于暹罗网络，双方都可以是lstm或cnn。简而言之，它可以衡量两个输入的相似程度。双神经网络有两个输入（Input1和Input2）。将两个输入馈送到两个神经网络（网络1和网络2）。两个神经网络中的每一个将输入映射到新空间并在新空间中形成输入。 ..通过损失计算评估两个输入之间的相似性。 Yakura同志在NIPS1993中称其为“使用“假的”延时神经网络进行签名验证”，以验证支票的签名与银行预订的签名相匹配。我发表了一篇论文。随着诸如SVM之类的算法的兴起，人们已经忘记了神经网络，但是一些研究人员正在努力工作。在2010年，Hinton在他的脸上发表了一篇有关ICML的文章，“整流线性单元改善了受限的玻尔兹曼机”。确认。效果非常好。你看起来好美。原理很简单。它对两个面孔进行卷积，然后将它们馈入具有相同或不同输出的神经网络。双神经网络用于处理两个输入“相似”的情况。伪双神经网络适用于处理两个输入为“特定差异”的情况。例如，如果要计算两个句子或词汇之间的语义相似度，最好使用连体网络。如果要检查标题和文本描述是否一致（标题和文本长度有很大不同），或者文本是否描述图像（一个图像，一个文本），则需要使用伪暹罗网络。换句话说，需要根据特定的应用程序来决定使用哪种结构和使用哪种损耗。

假设CNN模型的两个输入具有相似的局部结构。在多聚焦图像融合中，这种假设总是有效的。有的采用基于局部相似性的融合策略来确定分解后的融合模式系数，特别是在源图像内容具有高度相似性时，采用加权平均的融合方式，避免了有用信息的丢失。在这种情况下，CNN得到的权重比基于系数的度量更可靠，因此它们被用作合并权重。在图像内容相似度较低的情况下，采用取大融合模式可以最大限度地保留源图像的显著细节。但目前采用的此网络进行多聚焦图像融合耗时比较久。

2.5本章小结

本章概述了多焦点图像融合。首先，我将介绍多焦点图像融合的层次划分。它可以分为三个主要级别：像素级别，功能级别和决策级别。接下来是传统的多焦点图像融合。执行聚焦图像融合算法。引言主要包括空间域和变换域中的算法。最后，将介绍当前在多焦点图像融合中使用的更广泛的神经网络模型，以分析它们的优缺点。包起来。

3.数据集

3.1图像融合过程、典型数据集及标注

图3-1图像融合流程

图3-1所示的图像融合流程可以看出，数据集作为整个信息融合的第一步更是至关重要的一步，直接关系和决定了融合算法的可行性以及融合图像的高质量性，可以说直接影响整个信息融合的结果，因此，下面给大家介绍了关于数据集的相关内容。

针对一个实际应用的机器学习问题，首先要采集一定数量的相关数据，且必须保证这些数据与部署应用中是相同或者相似的。由于卷积神经网络涉及的参数很多（如LetNet约有12万个参数），因此训练所需数据较大，尤其是从头训练模型，所得模型很容易过拟合。对于生产、安防、销售等应用场合、既可在线记录多张图像、还可以利用网络自动爬取一定数量的图像。例如，Microsoft的Bing提供了API帮助用户通过一定的协议检索批量下载图像。此外，很多学术研究机构也发布了不同计算机视觉任务的数据集，使得各个研究方向有了方法比较的基准。

3.1.1典型数据集

ImageNet

ImageNet是根据WordNet层次结构组织的图像数据集。WordNet是由Princeton大学的认识科学实验室（Cognitive Science Laboratroy）在心理学教授George A.Miller的指导下建立和维护的英语字典，其中每个有意义的概念被称为同义词集（synset）.ImageNet中的每个概念图像都经过质量控制和人为标注。

CIFAR-100

CIFAR-100是CIFAR-10集的扩充，图像尺寸也为32*32像素，但增加了难度，共有100类图像，每类有600张。100个类被分成20个超类，每张图像都带有一个精细标签（大类）和一个粗糙标签（类别），大类包括鱼类、花卉、昆虫户外场景、水果和蔬菜等常见景物，图像格式有Python、MATLAB和二进制三个版本。

PASCAL VOC

PASCAL VOC的全称为Pattern Analysis Statistical Modeling，Computartional and Learning Visual Object Class，来源于在2005—201年开展的PASCAL VOC挑战赛，是公认的目标检测技术基准之一。该数据包括人、动物（如猫、够、鸟等）、交通工具（如车、船、飞机等）、家具（如椅子、桌子、沙发等）在内的20个类别。

（4）MS COCO

MS COCO是由Microsoft赞助的一个集目标检测、分割、人体关键点监测、场景检测超像素分割和字幕生成等任务于一体的大型数据集，COCO的数据含有91个类别，如人、自行车、公共汽车、飞机、停车标识、鸟、背包等，共有超过250万个目标标注。

（5）BSDS500

BSDS500是美国加州大学伯克利分销就算及视觉组提供的用于图像分割和物体边缘检测的数据集，包含200张训练图像、100张验证图像以及200张测试图像，图像的标注分别为分割标注和边缘标注。

3.1.2数据标注

目前落地的大多计算机视觉应用属于监督学习范畴，需要大量数据和准确的标签，这就离不开人工标注。标注是建立数据集的基础性工作，以上介绍的著名数据集都经过了大量的人工标志和复核，根据任务的不同，数据标注可以区分如下几种。

（1）分类标注

从封闭的类别标签集合中选择图相对应的属性，标签为整型或编码数字。一张图像可以很多分类属性，如人脸可以有承认、儿童、男人、女人、长发、短发等属性。

（2）标框标注

在目标检测任务中框选要监测的目标，标签是标注框左上角坐标（x,y）、宽度w、高度h和对象的类别c组成的数组用于人脸识别、行人识别、车辆检测等。有些特殊的任务还需要给出为题的角度，是标注框和物体更加契合。

（3）区域标注

用于场景分割和实例分割，相比于标框标注，要求更加准确地选出柔性区域并给出其类别，如自动驾驶中的道路识别和地理图像中的地物分割等，一般用区域各项点围成的多边形表示。

（4）锚点标注

一些对于特征要求细致的应用中常常将关键点单独标注出来，如人脸关键点监测、人体姿态估计等。

注意，虽然大量额人工标注能够带来深度学习模型预测能力的大幅提升，但成本非常昂贵，而且存在标注错误和噪声的问题。近年来，无监督、自监督和弱监督的训练方法不断取得进展，未来有望取代部分人工，实现图像、视频的自动标注。

3.2数据预处理

数据质量与规模决定了神经网络能达到的上线，在实际应用中初步获得的数据集常常会遇到数据缺失、数据噪声、不一致性、冗余、类别不均衡、离散点等不理想情况，因此需要提高数据的可用性。在完成了数据采集和标注后，要进行数据预处理，有助于图稿数据质量，改善数据集分布，加速模型的训练。下面介绍数据预处理的常见方法。

3.2.1数据清洗

数据清洗是指对数据进行重新审查和校验的过程，以减少错误、去除噪声野点、删除冗余和查缺补漏。该过程大多由人工完成，通常耗时占训练总时间的一半以上。

在数据清洗的过程中，先要对数据进行总体的检查包括类别、标注形式、其他属性、数据来源等信息，并抽取一部分图像人工阅览，对研究对象本身一个直观的了解，若所做任务对图像要求较高，需要一一核对，对于那些噪声较多、模糊、有遮挡、质量较低的图像、可能会直接影响卷积神经网络的性能，此时可以直接将它丢弃。

数据缺失是比较常见的一类数据问题，图像数据集的缺失值一般在属性和标注上。对于专业性不强的数据，结合可视化手段（如一些标注软件），可用经验知识推测填充缺失值。若无法判断，且该属性确实数量不多，则可直接丢弃。

格式错误是另一类比较容易发现的问题，如在数据型的属性中出现了字符型标注，类别出现了不在集合范围内的值，标注框超出图像范围等类似的错误可以通过编写脚本，利用正则条件查找出来，并按数据缺失的方法进行处理。

数据重复和异常数据可能会影响模型的结果，检查重复数据同样需要编写脚本。而对于异常数据，由于图像高维数据，可以先进行特征提取，再用聚类分级将离群点检测出来并丢弃。

3.2.2数据采样

对于与分类相关的问题，训练样本的数量可能因类别而异，并且通常对学习成果影响很小。但是，如果差异较大，则会出现类别不平衡的问题。仅考虑两种分类，算法预测的结果是伪造的证书案例，伪造的折扣，真实的案例和真实的折扣。在训练原始损失函数时，分类器倾向于预测更多新的样本类别。 ..成本敏感型学习可以用来解决类别不平衡的问题。常用的策略是设计偏差损失函数以限制假负比率到假阳性比率。

采样是从特定概率分布中提取采样点的过程。随机抽样是处理不平衡样本集的最简单方法。它可以分为随机过采样和随机欠采样。随机过采样是对少数类样本集中的样本进行随机重复和替换，以使数字更接近多数类，但同时又破坏了数据的相同独立分布特征并容易过拟合。原因。在这方面，人们提出了一些改进的采样算法，例如SMOTE算法，针对每个少数样本，从最近的K最近邻居中随机选择样本，然后在两者之间的线上添加新的点组合。随机选择少数。样本。但是，SMOTE算法没有考虑多数样本在少数样本周围的分布，这可能导致过度概括。 Borderline-SMOTE算法通过在最近的邻居样本集中选择超过少数类别的样本以形成“危险集”（代表少数样本的边界），并在边界附近人为地创建少数样本，从而改善了这一点。合成。

随机欠采样是通过从大多数类别的样本集中随机选择少量样本来平衡类别数量的方法，但这种方法会丢失一些有用的信息，并且容易出现拟合不足的情况。为了克服这个问题并提高数据分类中不平衡的算法的性能，人们使用集成学习的思想来提出诸如Easy Ensemble和Balance Cascade之类的算法。其中，EasyEnsemble算法首先从多数类中随机采样并替换N次，每次选择接近少数类的多个样本以获取N个样本集，然后选择每个子集。与少数族裔样本一起训练一个。建模并最终将这N个模型组合在一起，形成一个集成的学习系统。 BalanceCascade算法在每轮训练中都使用具有相同数量的多数和少数派类别的训练集。使用训练控制阈值控制误报率将删除所有正确确定的类，并删除以下各项：输入迭代并最终获得级联分类。

3.2.3数据标准化

一般来说，深度学习中还需要对图像和标注进行标准化操作。数据标准化主要是指去掉量钢的区别，将数据范围限制在合理区间范围内，以方便处理。一般数据标准化的方法有以下几种。

（1）min-max标准化

其中，分别为样本数据的最大值、最小值、需要事先确定。如果想将数据映射到[-1-1]区间上，则需要再进行缩放，即：

（3.1）

如果数据是平稳的，即数据每个维度的统计都服从相同分布可以考虑在每个样本上减去数据的统计平均值。自然图像数据具有平稳性，可进行逐样本均值消减，也称为滞留分量移除。

（2）Z-SCOTR标准化

其转换函数为：

（3.2）

其中，分别为样本数据的均值和标准差。Z-SCORE标准化适用于属性的最大值和最小值未知或难以确知的情况，经过转换后原始数据的分布可近似为标准高斯分布。

以上两种属于线性变换，变换后数据分布的性质不变。在分类、聚类等任务中，常常需要使用距离来度量相似性，或者用PCA进行降维，此时Z-SCORE标准化表现得更好。在不涉及距离变量、协方差计算及数据不符合高斯分布的时候，可以使用min-max标准化方法。

当数据属性呈现非均匀分布时，可采用以下3种非线性标准化方法。

（3）log函数标准化

针对正数，其转换函数为：

（3.3）

（4）反正切函数标准化

其转换函数为：

（3.4）

Logistic/Softmax函数标准化

Logistic函数可将任意数值对称地映射到0-1区间上，即：

（3.5）

Softmax函数可将数组中所有数值映射到0-1区间上，即：

（3.6）

3.2.4数据集划分

只要模型足够复杂，很多时候就不难得到训练误差小的卷积神经网络模型，但这并不是最终目的。人们希望的是学习到样本中的潜在规律，以便能够获得在新样本上表现好的泛化能力强的模型。为了评价所学出来的模型的好坏，需要用测试集T来评判模型在新样本的能力，这就要在数据集中分出一部分样本专门用于测试。常用的数据集划分方法有留出法、自助法和交叉验证法3种。

此外，在深度学习模型中往往都有超参数而需要调参，为了选择最优参数，还要在训练集S中分出一部分数据作为验证集。将选定参数的模型在验证集上评估性能，最后选择性能最好的一组参数，在测试集T上测试泛化能力。

3.3数据增广

数据增广又称数据增强，是深度学习中一种常用的技巧。由于现实条件的限制，采集的图像有时数量严重不足，或无法涵盖所有的情况，难以满足深度学习的要求，因此需要通过增广的手段来扩充数量，以便减轻模型过拟合。常用的图像数据增广方法有几何变换、颜色变换、图像降质等。下面简要的介绍几种常用的增广技术基本原理。

3.3.1几何变换

设源图像像素坐标为（x,y），几何变换后的坐标为（u,v）则几何变换的齐次形式可写为：

（3.7）

其中，H为3*3坐标变换矩阵，不同形式代表不同的图像几何变换类型。

（1）图像翻转

图像翻转的基本操作分为水平翻转和垂直翻转，设图像的宽、高分别为W何H，水平翻转的变换矩阵为：

（3.8）

除了对横坐标同比例翻转，其余进行恒等变换。同理，垂直翻转的变换矩阵为：

（3.9）

针对左右或上下可能对称的场景常常做翻转，如人脸检测可以水平翻转，航拍图像可以同时水平翻转和垂直翻转。

（2）图像缩放

图像可以放大和缩小，以适应卷积神经网络输入设置的尺寸，缩放的变换矩阵为：

（3.10）

其中，

分别为横、纵坐标的缩放系数，大于1对应放大，小于1对应缩小。

（3）图像平移

图像平移只涉及沿横坐标方向（或两者）移动图像，其变换矩阵为：

（3.11）

使用时，以图像长、宽乘以0-1区间上的随机比例构成数据增广。

（4）图像旋转

围绕原点旋转角度

（以y轴正半轴为正方向）的变换矩阵为：

（3.12）

绕任一点的旋转可由平移和旋转组合操作，其变换矩阵为二者矩阵乘积。

（5）图像剪裁

图像剪裁是在原图像中长和宽的范围内连续地取出一部分作为新图像。剪裁通常与缩放、旋转、平移组合使用，可以先按随机比例缩放后再随机或平移至中心剪裁，或先随机剪裁一块区域后再缩放至规定尺寸，这样就会产生很多不同的训练样本。

3.3.2颜色变换

除了对图像的几何形状做变换，如果数据是彩色图像，还可以对图像的颜色空间做增广。图像颜色一般用RGB空间描述，但RGB颜色具有较强的相关性，很难独立控制。而HSV（色调Hue、饱和度Saturation、明度Value）空间对颜色的表示更加直观，相关性较小。

H通道的取值范围为[0,180），S通道好V通道的取值范围为[0,256），在HSV空间上可以对每个像素随机改变一定的比例，从而微调图像的颜色。

3.3.3图像降质

图像样本的质量有时会影响卷积神经网络的判断，说明此时卷积神经网络并未学习到图像的本质内容，一个好的模型应该对图像的降质具有一定的鲁棒性。为此，可以人工对图像随机降质，让卷积神经网络模型更好地充分学习到本质特征。图像降质的方法很多，下面简要介绍三种。

添加噪声

卷积神经网络在训练过程中可能学习到无用的高频特征，从而发生过拟合。噪声具有丰富的高频分量，给样本加入适当强度的随机噪声有助于让网络学习到更本质的特征。常用的图像噪声主要有高斯噪声和椒盐噪声。

y变换

Y变换是对所有像素的灰度级f(x,y)做幂函数的非线性映射，得到的输出灰度

。当y>1时，会拉伸图像中灰度级较低的区域并压缩灰度级较高的区域，当y<1时，会拉伸图像中灰度级较高的区域并压缩灰度级较低的区域。

Fancy PCA

数据增广的Fancy PCA方法本质上是在颜色空间的征缴域按照影响因子进行随机扰动。对于一张图像，首先将其在RGB三个维度拉平，进行主成分分析，得到特征向量P1、P2、P3和特征值

，然后在每个特征值上加入均值为0、方差为0.01的高斯噪声

，再将

加入到RGB图像三个颜色分量忠即可。

3.4数据集制作

由于多聚焦图像融合的特殊性，网络上没有类似 Image Net 这样针对于多聚焦图像融合的标准数据集，需要根据多聚焦图像的特点制作训练数据集。制作多聚焦图像数据集有三种方法，分别是滤波法方法，分别是滤波法[19]、[19]、指定区域采样法、指定区域采样法[57]和[57]和景深法和景深法[55]。[55]。这三种制作方法没有标准的制作流程，本文通过具体实验说明三种方法的适用场景以及优缺点

。

3.4.1滤波法

滤波法制作数据集主要根据高斯滤波器的滤波特性得到模糊图像像素点的图像特征，可以手工制造模糊和清晰数据集，其核心思想是利用滤波器对数据集进行滤波来模拟多聚焦图像。图 3-

2

为滤波法制作数据集原理图。

图3-2 滤波法原理图

文献【19】中利用滤波法，在ImageNet数据集基础上使用标准偏差为2，核为7*7的高斯滤波器进行五次滤波来模拟不同景深的多聚焦图像。在原始清晰图像中获取第一次滤波图像，使用相同滤波器在第一次滤波图像基础上获得第二次滤波图像，以此类推得到5次高斯滤波后的图像，通过这些不同清晰度的图像数据来模拟多聚焦图像融合任务中焦点不同的情况，此方法适用于像素分类CNN，如果使用端到端模型则需要使用另外两种办法。

3.4.2指定区域采样法

指定区域采样法和滤波法不同，该方法将原清晰度图像数据集通过滤波器模糊之后，在指定位置进行块提取以及分割，得到以该图像块为中心的模拟多聚焦图像。原理图如图3-3所示。

3.5 本章小结

本章针对网络训练所需的数据集进行了展开论述，首先通过图像融合过程图阐述了数据集以及数据预处理的重要性，以及介绍了典型的数据集级标注；其次，对数据集预处理进行了详细介绍，介绍了预处理的几种方法以及相对应适用的应用场景；最后对数据集制作的两种方法进行了介绍，并选定了其中一种作为本文数据集的制作方法。

4.基于RPCA的卷积神经网络多聚焦图像融合

4.1 RPCA算法

4.1.1鲁棒性主成分分析

为了结合多焦点图像的特征以增加融合过程的鲁棒性，本文使用鲁棒的PCA算法进行特征提取。主成分分析（PCA）可以有效地找到数据中最重要的元素和结构，消除噪声和冗余，并减小原始复杂数据的规模。最简单的主成分分析方法是PCA。从线性代数的角度来看，PCA的目标是使用一组不同的基础来重写我们得到的新数据空间。通过这套新的基础，可以揭示原始数据。 ..两者之间的关系是该维度最重要的“主要组成部分”。 PCA的目标是找到这样一个“主要组件”，以最大程度地提高冗余度和噪声干扰。像传统的PCA一样，健壮的PCA（鲁棒主成分分析）本质上是在低维空间中找到最佳数据投影的问题。如果观测数据很大，则PCA将不会产生理想的结果，而稳健的PCA将能够从大而稀疏的噪声污染观测数据中恢复低排名的数据。健壮的PCA会考虑这些问题。典型的数据矩阵D包含结构信息和噪声。然后将此矩阵分解为两个矩阵，并将它们相加。 D = A + E，A为低等级（因为内部存在一定数量的结构信息，因此行或列线性相关），E稀疏（包含噪声，稀疏）稳健的PCA处理更多的噪声，并且不一定是高斯。同时，存在优化算法ALM，ADM，IT，APG，PCP，FCPP和PCA依靠SVD查找特征向量。

健壮的主成分分析主成分分析（PCA）是Karl Pearson等人提出的一种统计方法。用于分析和简化许多领域的数据，例如数学建模，机器学习和图像压缩。将会被使用。正交变换允许将高维空间数据样本映射到低维空间。主要目的是通过线性降维来保留源数据集的显着特征，删除冗余信息和数据。 [[35-37]。主成分分析模型可以表示为：

（4.8）

其中，M代表的是原始数据矩阵，L表示低秩矩阵N表示高斯噪声。当数据集受到较大噪声或者严重离群点干扰时，主成分分析法的效果会受到很大的影响。为了解决PCA鲁棒性不佳的问题，Candès 等人[47]提出了鲁棒主成分分析（RPCA）理论，它的基本思想是数据矩阵在最优化条件下可以表示为一个低秩矩阵和一个稀疏矩阵的和。假设有一个输入矩阵

那么该矩阵可以分解为：

（4.9）

其中，L是低秩矩阵，S是稀疏矩阵，输入矩阵I的大小为H*W。与其它稀疏表示方法类似，RPCA采用核规范作为近似稀疏约束：

（4.10）

其中，

是矩阵的秩，

是矩阵的

范数，

是正则化参数且

。

通常，这种分解对于NP（非确定性多项式）而言是一个难题。在优化算法中，矩阵的秩等于非零奇异值的数量，因此可以使用矩阵的核范数来估计矩阵的秩，

范数是

范数的最优凸近似，

则公式（4

.10

）可以转化为以下凸优化问题：

(4.11)

其中，

表示核范数，即矩阵的奇异值之和，

表示矩阵的

范数，即矩阵的所有元素的绝对值之和，本文用增广的拉格朗日乘子法【47.50】事先图像的RPCA分解。

4.1.2图像分解

在图像融合过程中，多分辨率分解方法往往会造成部分高频信息丢失，导致“振铃”现象出现。RPCA算法能够准确的分离多聚焦图像中的显著特征和背景信息，避免了高频信息的丢失。假设将图像用矩阵来表示，那么图像的高频信息体现在稀疏矩阵中，图像的背景信息体现在低秩矩阵中。将多聚焦源图像经RPCA处理后的结果表示为：

（4.12）

其中

，

表示低秩分量

，

表示稀疏分量

，n=A,B

表示多聚焦源图像A和源图像

B。

表示图像的RPCA分解

，其中，lambda

表示代价函数中稀疏误差项的权重

，tol

表示停止迭代时的最小误差

，maxIter

表示最大迭代次数。本文将lambda 设为

,H

为输入矩阵

的行数

，tol

设为

,

max Iter 设为1000。

（是否加分解图）

4.2卷积神经网络模型

我们需要根据原图像的一些像素的特征以及景深来对我们肉眼看到的清晰、细节部分进行提取并且完成信息融合，这才是多聚焦图像融合的核心任务

。以

此思路为基本路线

，利用计算机视觉技术将多聚焦图像的图像特征信息分类并提取成为图像融合过程中最重要的步骤。针对所提取图像清晰特征，融合规则非常重要，设计正确合适的融合规则会直接影响到多聚焦图像融合结果。

本文的第2章介绍了当前用于多焦点图像融合的常见卷积神经网络算法。现有的PCNN技术主要基于单个像素或与多尺度转换相结合。基于单像素的技术与人眼的视觉特性不一致，并且与单像素亮度相比，人的视觉对边缘细节的变化更敏感。基于多尺度转换的PCNN方法由于存在大量系数而需要进行融合处理，并且在算法中消耗了相对大量的时间和空间。

4.3本文融合方法

4.3.1 RPCA图像分解模型

RPCA将输入数据矩阵分解为低阶主成分矩阵和稀疏矩阵。分解时间受输入数据矩阵的矢量格式影响。对于具有不同矢量格式的数据矩阵，RPCA分解时间是不同的。

为了获得最佳的RPCA图像分解模型，对不同矢量格式的多焦点图像进行RPCA分解，并对计算时间进行比较。运行时间还包括两个多焦点源图像的矢量格式转换时间和RPCA分解时间。假设待分解多聚焦图像为

，

为图像大小，RPCA分解的向量格式包括三种，分别为

。最后得到的稀疏矩阵均必须转化为

，与源图像大小一致。对于

，直接在多聚焦源图像上进行RPCA分解，两幅源图像需要分解两次，得到的稀疏矩阵同源图像大小一致，..最终的稀疏矩阵应转换为与源图像相同的大小。要直接在多焦点源图像上执行RPCA分解，必须将两个源图像分解两次，并且稀疏矩阵的所得同源图像将具有相同的大小。因此，稀疏矩阵不需要向量变换。对于两个源图像，需要将矢量格式转换为。 RPCA分解完成后，需要将稀疏矩阵转换为。若要直接RPCA分解两个源图像的复合数据矩阵，需要将分解后的稀疏矩阵转换为同一源图像中相同大小的两个稀疏矩阵。比较实验中使用的多焦点图像为“时钟（512 * 512）”，“百事可乐（512 * 512）”和“实验室（640 * 480）”，如图4-1所示。

(a)Clock A (b)Clock B

(c)Pepsi A (d)Pepsi B

(e)

Lab A (f)Lab B

图4-1 多聚焦源图像

图像名称	数据矩阵向量格式
图像名称	,	,	,
Clock	10.22.3	0.3856	1.0013
Pepsi	9.7475	0.3842	1.0311
Lab	21.1555	0.4623	1.1598

表4-1 不同向量格式的多聚焦图像RPCA分解时间对比

从表4-1可以看出，与数据矩阵矢量格式对应的多焦点图像的RPCA分解执行时间最短，而与数据矩阵矢量格式对应的多焦点图像的RPCA分解执行时间最短。我明白。最大执行时间。因此，在本文融合算法的RPCA分解中，多焦点图像转换后的数据矩阵向量采用这种格式。

RPCA图像分解模型对多焦点图像执行矢量格式转换以获得输入矩阵，并对输入矩阵执行RPCA分解以获得低秩和稀疏矩阵，从而得到低秩矩阵。在其上执行向量转换。稀疏矩阵，用于获得与源图像大小匹配的低秩矩阵。秩矩阵和稀疏矩阵。 RPCA图像分解模型用于多焦点图像“时钟”。拆卸结果如图4-2所示。从图4-2中，我们可以看到稀疏矩阵突出区域的特征与焦点相对应。与源图像的区域功能一对一。多焦点图像融合确定焦点区域的特征，在源图像中找到并提取焦点区域，并合并提取的焦点区域以获得最终的融合图像。因此，可以将确定源图像的聚焦区域的特征和聚焦区域的位置的问题转换为确定RPCA源图像的稀疏矩阵的突出区域的特征的问题。发现问题。显然，RPCA分解域的源图像的稀疏矩阵具有低维，稀疏和抗噪的特性。这有助于确定多焦点图像的焦点区域的特征和位置。聚焦区域可用于改善融合图像的质量[155]

源图像I （b）低秩矩阵A （c）稀疏矩阵E

图4-2多聚焦图像“Clock”的RPCA分解效果图

4.3.2全卷机神经网络模型

本文所提出的网络模型，在经典的全卷机神经网络模型上进行了改进，模型采用了经典的Siamese网络结构的特征提取部分，并且巧妙地把此特征运用到了全卷积神经网络模型上，把全连接层替换成了全卷积层，因多聚焦图像在融合时不用提取深层次的图片信息，因此在采用3个卷积层和1个池化层提取信息后紧接着全卷积层，通过权重设置最后进行像素分类、防止样本偏移，最后通过反卷积恢复图像大小。相较于目前运用较为广泛的暹罗网络以及运用到多聚焦图像融合中的全卷积神经网络，本文的网络结构既保证了特征信息提取的完整性，又保障了整体融合效率的高效性。

图

4-3 全卷积神经网络结构参数

由图4-3可以看出，本文网络所用的卷积核大小为3*3，步长为1；池化层核的大小为2*2，步长为2。实验表明，卷积核如果选择的过大，就会使得提取的像素点太多，导致分类的结果较差；如果卷积核选择的太小，又会使得提取的像素点太少，而无法进行下一步计算。池化的本质是数据压缩，一方面抑制响应较低的信号，降低噪声；另一方面减少需要学习的参数，降低网络规模，在空间上也实现了感受野的增大，有利于使用较小的卷积核实现更大尺度上的特征学习。

卷积层后使用的激活函数是ReLU（Rectified Linear Unit），该函数成为修正线性单元或线性整流函数，是一个分段函数，数学表达式为：

（4.13）

相较于Sigmoid函数和Tanh函数，，ReLU函数存在以下优点：

ReLU函数的梯度当

时为1，当x<0时为0，因此在

是克服了Sigmoid函数和Tanh函数梯度消失的问题；

ReLU函数计算简单，极大地节省了时间。

4.3.3融合过程

首先分析基于多聚焦图像融合的原理，通过RPCA对图像进行特征提取之后再利用卷积神经网络进一步得到特征以及决策图，根据决策图对图像进行融合，

如图4-5所示。

网络训练。根据具体的训练任务配置网络参数，具体有网络卷积层的输入与输出，选择哪一种损失函数、激活函数，以及网络的迭代次数、学习率等等。
将预处理好的通过RPCA提取后的数据输入到网络中进行训练，该目的是为了得到图像的权重等映射参数，也方便网络后面运用到像素分类其中，防止样本偏移。
然后

把全连接层替换成了卷积层后，就可以不限制输入图像的大小，一次性输入网络即可获得一张图片所有位置的检测目标概率，形成一幅

特征图。如图4-4所示。

图

4-4 全连接层转化全卷积层

在本文算法中，网络对图像像素进行分类，输出焦点图，可以显示出图像的焦点区域和散焦区域白色代表散焦区域、黑色代表聚焦区域。从焦点图（图4-6）可以看出网络可以在视觉上显示源图像的聚焦信息，并且聚焦区域或者散焦区域具有突出的细节信息。得到最终决策图进行融合。

4.4实验与分析

4.4.1 实验设置

（1）软硬件配置

本文对全卷积神经网络训练的软件环境是：在Window7系统下，使用MATLAB2020b进行代码编写。64位操作系统、内存6G以及Inter(R)Core(TM)0I5-3210cpu@2.50GHz 。

训练数据及制作以及网络参数配置

本文采用三组不同数据的图像作为初始数据及，采用指定区域采样法制作训练数据集，基础学习率为，每训练一次共四轮，每轮迭代次数393次，共1572次。

客观评价指标及对比算法选择

在本文中，采用了三对来自“LytroDataset”数据集的多聚焦图像以及一对自拍图像。四组图像具有不同的特征分布，可以有效地表示该方法在不同情况下的有效性。

本文提出的融合方法将要和其他四种方法进行比较。这些方分别是基于离散小波变换（DWT）、非下采样剪切波变换（NSST）、非下采样轮廓变换（NSCT）、以及CNN。本文采用的客观评价指标有：

信息熵（E）、互信息（MI）、结构相似度（SSIM）、基于人类视觉的度量

、归一化的互信息

、边缘保持度融合质量指标

。通过以上指标对本文算法的有效性进行验证。

4.4.2实验结果与分析

网络训练曲线

本文训练导出的训练曲线如图4-7所示，从图里可以看出当训练达到700次左右损失降到最低，并且在一定范围内浮动，当训练达到700次左右准确度达到最高并且在一定范围内浮动。

（

a

）

（b）

主观分析

四对测试图像的融合结果分别显示在图4-8、4-9、4-10、4-11中。首先根据主观评价法针对不同图像进行融合评估。

客观分析

为了进一步验证本文算法的优越性，E、MI、SSIM、

、

、

，

几项指标进行验证，几项指标的性质在本文第二章已经进行了阐述，对于这些指标，指标的数值越大，说明融合的效果越好，细节信息保留的越多，算法的有效性越好。

表4-2列出了使用上述7个客观评价指标以及运算速度针对五种不同融合方法的评价结果，最佳值已经在表里用黑色粗体表示出来。从十堰结果可以看出，本文提出的算法在六个指标中都高于其余四种方法，说明了本文算法的优越性和有效性。

4.5本章小结

本章重点介绍基于RPCA和全卷积神经网络的多焦点图像融合算法。我们将首先介绍PCA算法的原理，然后介绍RPCA算法及其优点。网络结构全卷积神经网络模型对此模型进行了改进，并且RPCA与本文提出的全卷积神经网络模型相结合，形成了本文的融合算法。最后，通过5组照片和5种方法的对比实验验证了该建议。本文算法的优越性和有效性。

5.总结与展望

图像融合技术

最为目前信息融合技术当中的一个重要分支，在各个领域都有着不可或缺的

重要

的

应用

价值

，

其原理

是把

很

多幅

我们所需要的

图像的

一些

重要

的

信息融合到

一起的技术

。本文主要针对

RPAV算法与全卷机神经网络相结合

融合算法的改进，

把两者各自的优势很好地结合到一起，达到了提升融合质量以及运算速度的目的

。

现将

论文

的

主要工作内容总结如下：

本

论文针对图像融合的研究背景及意义进行了阐述，说明了图像融合的研究发展史。展开说明多聚焦图像融合的研究现状，并罗列了多聚焦融合的传统方法举例和深度学习方法举例。
本文为了得到更好的融合结果，针对图像数据以及图像预处理进行了深入研究。本文首先对图像融合过程进行了分析，

然后因为

数据预处理

的

部分对融合结果影响较大，说明预处理在图像融合任务中的必要性；

因此详细介绍了数据预处理的方法以及应用场景，

然后总结了

两

种数据集制作方法，分析其适用场合和优缺点，确定本文实验方案

使用指定区域采样法制作数据集，

该数据集能很好地适应基于决策图的卷积神经网络融合方法；最后将图像配准和图像去噪引入到数据集预处理中，增强数据集图像质量，提高图像融合结果质量。

（

3

）

本文为了解决基于卷积神经网络的多聚焦图像融合中出现的细节信息丢失问题，

对全卷积神经网络结构进行了改进，并且将传统算法

RPCA与之相结合

，利用

RPCA

算法

良好的特征提取的功能，在网络结构就可以保留细节信息额基础上上又加了一层保护伞

。

模型采用了经典的Siamese网络结构的特征提取部分，并且巧妙地把此特征运用到了全卷积神经网络模型上，把全连接层替换成了全卷积层，因多聚焦图像在融合时不用提取深层次的图片信息，因此在采用3个卷积层和1个池化层提取信息后紧接着全卷积层，通过权重设置最后进行像素分类、防止样本偏移，最后通过反卷积恢复图像大小，最后得出的结果主观上效果清晰，六个客观指标上也优于其他算法。

5.2未来展望

作为多源图像融合的重要领域，多焦点图像融合在机器视觉，仓储物流，医疗诊断和军事安全中具有非常重要的应用价值。经过研究人员近20年的研究，由于缺乏完整的理论框架和理论体系，以及融合问题本身的复杂性，多焦点图像融合及相关技术取得了一定的研究成果。另外，作者的研究仍在这一领域。多焦点图像融合仍然需要大量详细的理论和应用研究。初步考虑因素包括以下几个方面：

（1）基于动态场景的多焦点图像融合算法研究

当前，大多数图像融合算法都是基于静态场景中的图像设计的，但是关于动态场景中图像融合的研究很少。这些传统的融合方法为包括静态场景在内的多焦点图像提供了令人满意的融合结果。但是，动态场景图像序列不符合严格的配准要求，因此图像中相同位置的内容将有所不同。因此，具有动态场景的多焦点图像融合必须首先解决场景对象提取和场景配准问题。

（2）强噪声环境下的多焦点图像融合算法研究

在现实世界的工程应用中，由于外部环境和传感器设备的影响，传输和收集的源图像通常包含噪声。大多数传统的融合算法都是基于无噪声源图像设计的，而对强噪声图像融合的研究很少。强烈的外部噪声会干扰源图像的焦点区域特性的确定，从而影响融合算法的性能并降低融合图像的质量。因此，一种有效抑制外部噪声同时提高融合性能的方法是在强噪声环境下多焦点图像融合算法研究的方向。

（3）主观评价与客观评价相结合的综合质量评价体系研究

当前，图像的主观和客观评价是图像融合研究领域中的研究热点。客观指标从不同角度定量评估融合图像的质量，这对于评估各种融合算法的性能具有重要参考意义。但是，不可避免地会偏离人类的视线，并且这个问题尚未得到完全解决。研究人员提出的各种评估指标

缺乏统一的理由。因此，构建融合了基于人类视觉的主观评价与客观评价相结合的融合图像质量评价系统，对于融合算法的客观评价至关重要。

（4）结合各领域新理论的多焦点图像融合算法研究

多焦点图像融合方法包括各个领域的知识，并且在这些领域中不断出现一些新的领域理论，例如新兴的压缩感测理论，低秩矩阵重构理论和形态成分分析。如何将这些新理论引入图像融合，如何建立更合理的融合规则，结合这些新理论研究图像融合算法，并解决图像融合问题

集成中的实际问题值得进一步研究。简而言之，本书仅研究和讨论了空间域中多焦点图像的像素级融合算法中的一些问题，并取得了一些研究成果，但研究成果的应用进一步发展。有待研究和改进的未来。

致谢

还记得刚入学的时候，在同学们都找到导师的情况下我即将面临着跨专业选导师的情况，但是刘老师仍然为我争取到了一个名额，给了我这份入学的资格

；三年后，我已经做好了迎接新生活的准备。

在这期间，我在

昆明理工

大学学到了太多知识，学习上我认真完成了本专业所有课程，并且在自己课题方向进行了深入的研究，收获颇丰；生活上，同学们教会我如何互相体谅、互相帮助，老师们教会我如何踏实做人、认真做学问。在即将分别之际，我由衷地对所有帮助过我的老师同学表示最衷心的感谢。在学习期间，我的导师

刘增力

教授给予了我重要的帮助。刘老师从刚开始就教导我们要认真对待自己的课程和课题，把思想摆正才能真正的做出学问。我一直以这句话作为我的行动导向来对待自己的任务。刘老师在每次重要的会议上为我们答疑解惑，解答在学习生活种遇到的难题，事无巨细。当我在实验上遇到难题，老师知道了会主动联系我，帮助我解决；当我

生活山遇到难题

，老师也会主动开导我，

跟我讲解人生的道理，

让我重拾信心。

然后还要感谢我

实验室

室的

所有师兄师姐、师弟师妹们

，是他们在我遇到难题伸出了援手，在我收获成果时分享喜悦

，

我们在一起探讨问题，解决问题，度过了丰富的研究生时光。

最后，要感谢我的家人，是他们把我培养成现在的样子，是父母默默无闻的付出才成就了现在的我

，我想说今后我将继续不忘初心，砥砺前行，在以后的工作岗位上继续发光发热。

参考文献

Mitchell H B.Data fusion: concept and ideas[M].Berlin Heidelberg: Springer,2012.
Cui M S. Genetic Algorithms Based Feature Selection and Decision Fusion for Robust Remote Sensing Image Analysis [M]. Proquest, UMI Dissertation Publishing,BiblioBazaar,2012.
Ahmed Abdelgawad, Magdy Bayoumi. Resource-aware date fusion algorithms for wireless sensor networks [M] .Ney York:Springer,2012.
Erkanli Stertan. Fusion of visual and thermal images using genetic algorithms [D].PhD Thesis,Old Dominion University,2011.
Xu M,Image registration and image fusion: algorithms and performance bounds [D].PhD Thesis,Syracuse University,2011.
Wan T, Zhu C, Qin z. Multifocus image fusion based on robust principal component analysis[J]. Pattern Recognition Letters,2013,34(9):1001-1008.
Isha Mehra, Naveen K Nishchal.Image fusion using wavelet transform and its application to asymmentric cryptosystem and hiding[J].Optics Express,2014,22(5):5474-5482.
Hong R, Wang C, Ge Y, et al.Salience preserving multi-focus image fusion [C].Multimedia. And Expo,2007 IEEE International Conference on. IEEE,2007:1663-1666.
Smith M I,Heather J P. A review of image fusion technology in 2005 [C]. Defense and security. International Society for Optics and Photonics,2005:29-45
Ardeshir Goshtasby A,Nikolov S. Image fusion: advances in the state of the art [j].Information Fusion, 2007,8(2):114-118..
Anjali Malviya,Bhirud S G. Image fusion of digital image[J]. International Journal of Recent Trends in Engineering,2009,2(3):146-148.
Bai X, Zhou F,Xue B, Edge preserved image fusion based on multiscale toggle contrast operator [J]. Image and Vision Computing,2011,29(12):829-839.
Ketan Kotwal, Subhasis Chaudhuri. A novel approach to quantitative evaluation of hyperspectral image fusion techniques [J]. Information Fusion,2013,14(1):5-18.
Bhatnagar G,Jonathan Wu Q M, Liu Z. Human visual system inspired multi-modal medical image fusion framework [J]. Expert System with Application,2013,40(5):1708-1720.
Xu Z.Medical image fusion using multi-level local extrema [J].Information Fusion, 2014,19:

38-48.

Zhao Y, Zhao Q,Hao A.Multimodal medical image fusion improved multi-channel PCNN [J]. Bio-Medical Materials And Engineering,2014,24 (1):221-228.
Stathaki T .Image Fusion: Algorithms and Applications [M]. New York:Academic Press,2008.
Bai X,Zhou F, Xue B. Fusion of infrared and visual image through region extraction by using mutli scal center-surround tophat transform[J].Optics Express,2011,19(9):8444-8457.
Alex Pappachen James,Belur V Dasarath,medical image fusion:A survey of the state of the art [J].Information Fusion,2014,19:4-19.
H Tang,B Xiao,W Li,et al.Pixel convolutional neural network for multi-focus image fusion[J]. Information Sciences,2017,443(3):125-141.
M Amin-Naji,A Aghagolzadeh,M Ezoji,Ensemble of CNN for multi-focus image fusion[J].Information Fusion,2019,51:201-214.
M Amin-Naji,A Aghagolzadeh,M Ezoji.CNNs hard voting for multi-focus image fusion[J]. Journal of Ambient Intelligence and Humanized Computing,2019:1-21.
X Guo,R Nie,J Cao,et al,Fully CONVOLUTIONAL network-based multifocus Image Fusion[J]. Neural Computation,2018,3097）：1775-1800.
高雅允.金伟其.徐丽芳等.一种可实时话的多光谱图像融合系统[J].光学技术，1995，（04）：13-16.
刘兴党.图像融合及其临床应用[J].国外医学（放射医学核医学分册），1996（04）：13-15.
金红，刘榴娣.彩色空间变换法在图像融合中的应用[J].光学技术，1997，56(04):46-50.
蒋晓瑜，高雅允，周立伟，小波变换在多光谱图像融合中的应用[J].电子学报，1997,36（08）：105-108.
Li H, Tang G F,Wu F X,et al.Pixel-level image fusing based on programmable GPU [J]. Applied Mechanics and Materials,2013,347:3872-3624.
Li M J, Dong Y B,Wang X l.Research and Development of Non Multi-Scale to Pixel-level Image Fusion [J] Applied Mechanics and Materials,2013,448-453:3621-3624.
Marcello J, Medina A, Eugenio F. Evaluation of Spatial and Spectral Effectiveness of Pixel-level Fusion Techniques [J].Geoscience and Remote Sensing Letters,IEEE 2013,10(3):432-436.
Pong K H,,Lan K M. Multi-resolution feature fusion for face recognition [J]. Pattern Recognize,2014,47(2):556-567.
Zhou Y, Zhou S T, Zhong Z Y,et al.A de-illumination scheme for face recognition based on fast decomposition and detail feature fusion [J]. Optics express,2013,21(9):11294-11308.
Kalyankar N V,Al-Zuky A. Feature-level based image fusion of multisensory images[J]. International Journal of Software Engineering Research and Practices,2012,1(4):9-16.
Ye Z, He M, Prasad S,et al A multiclassifier and decision fusion system for hyperspectral image classification [C]. Industrial Electronics and Application (ICIEA),2013,8th IEEE comference on.IEEE,2013:501-505.
Ridout M. An improved threshold approximation for local vote decision fusion [J].Signal Processing,IEEE Transactions on,2013,61(5):1104-1106.
Nanyam Y, Choudhary R, Gupta L,et al A decision-fusion strategy for fruit quality inspection using hyperspectral imaging[J].Biosystems Engineering,2012,111(1):118-125.
黄伟，像素级图像融和研究[D].上海：上海交通大学博士学位论文，2008.
孙巍。像素级多聚焦图像融合算法研究[D]。长春：吉林大学博士学位论文，2008.
Multi-focus Image Sets:http://www.ece.lehigh.edu/spcrl.
Image Sets:http://www.imgfsr.com.sitebuilder/images.
徐彤阳.基于混叠Contourlet变换的遥感图像融合研究[D].上海;上海大学博士学位论文，2011.
Piella G. A general framework for multiresolution image fusion:form pixel to regions [J],Information Fusion,2003,4(4)259-280.
潘瑜，郑钰辉，孙权策，等.基于PCA和总变差模型的图像融合框架[J].计算机辅助设计与图形学学报，2011,23（7）：1200-1210.
Li S, Kwok J T, Wang Y. Fusion images with multuole focuses using support vector machines [M]. Artificial Neural Networks-ICANN 2002.Berlin Heidelberg:Springer,2002:1287- 1292.
Jiang Z, Han D, Chen J,et al. Awavelet based algorithm for multi-focus micro-image fusion [C].Image and Graphics,2004. Proceedings. Third International Conference on IEEE,2004):176-

179.

Pajares G, Manuel de la Cruz J.A wavelet-based image fusion tutorial [J].Pattern Recognition,2004,37(9):1855-1872.
Li Z H,Jing Z L, Liu G,et al Pixel visibility based multifocus image fusion [C].IEEE International Conference on Neural Neworks and Signal Processing,2003,3:1050-1053.
Hariharan H.Extending Depth of Field via Multifocus Fusion [D].PhD Thesis.University of Tennessee,Knoxville,2011.
张勇，陈大建。区域图像融合算法在红外图像分析中的应用[J].光电技术应用.2011,26(3):17-20.
Srinivasa Rao Dammavalam,Seetha Maddala,Krishna Prasad MHM.Quality assessment of pixel-level image fusion using fuzzy logic [J].International Journal on Soft Computing,2012,3(1):11-23.
Li S,Yang B.Multifocus image fusion using region segmentation and spatial frequency [J].Image and VIsion Computing,2008,26(7):971-979.
Garg S, Ushah Kiran K Mohan R, et al. Multilevel medical image fusion using segmented image by level set evolution with region competition[C].Engineering in Medicine and Biollogy Society,2005.IEEE-EMBS 2005,27

th

Annual International Conference of the IEEE,2006:7680-7683
Lee D H,L= Lee K M, Lee S U. Fusion of lidar and imagery for reliable building extraction[J].Photogrammetric Engineering and Remote Sensing,2008,74(2):215.
Nishioka T, Shiga T, Shirato H,et al.image fusion between FDG-PET and MRI/CT for radiotherapy planning of oropharyngeal and nasopharyngeal carcinomas[J].International Journal of Radiation Oncology Biology Physics,2002,53(4):1051-1057.
Runkler T A, Sturm M,Hellendoorn H Model based sensor fusion with fuzzy clustering[C]. Fuzzy System Proceedings,1998.IEEE World Congress on Computational Intelligence. The 1998 IEEE International Conference on IEEE,2014,2:1377-1212.
屈小波，闫敬文，杨贵德，改进拉普拉斯能量和尖锐频率局部化Contourlet域多聚焦图像融合方法[J].光学精密工程，2015,2（3）：169-176.
王保云。图像质量客观评价技术研究[D]。合肥：中共科学技术大学博士论文，2010.
Li S, Kanf X, Hu J,et al.Image matting for fusion of multi-focus images in dynamic scenes[J].Information Fusion,2013,14(2):147-162.
Wang Z,Bovik A C, Sheikh H R, et al .Image quality assessment:Form error visibility to structural similarity [J].IEEE Transactions on Image Processing,2004,13:600-612.
Wang Z,Bovik A C,A universal image quality index[J].IEEE Signal Processing Letters,2002.9:81-84.
Piella G,Heijmans H. A new quality metric for image fusion [C].Proceedings of International Conference on Image Processing,Barcelona,Catalonia,Spain,2003:173-176.
Yang B,Li S,Pixel-level image fusion with simultaneous orthogonal matching pursuit[J].Information Fusion,2012,13:10-19.
Nayar S K,Nakagawa Y.Shape from focus [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1994,1698）：824-831.
Li H,Chai Y,Yin H,et al,Multifocus image fusion and denoising scheme based on homogeneity similarity [J],Opt,Commun,2012,285(2):91-100.
Eckhorn R,Reitboeck H J,et al,Feature linking via synchronization among distributed assemblies:Siimulation of results from cat cortex[J].Neural Computation,2010,2:293-307.
Broussard R P, Rogers S K,et al, Physiologically motivated image fusion for object detection using a pulse coupled neural network[J],IEEE Transaction Neural Network,1999,10:554-563.
刘勍。基于脉冲耦合神经网络的图像处理若干问题研究。[D]西安;西安电子科技大学博士论文，2011.

原文链接：https://blog.csdn.net/qq_35990565/article/details/114849331

你可能也喜欢