纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

本文就近年提出的四个轻量化模型进行学习和对比，四个模型分别是：SqueezeNet、MobileNet、ShuffleNet、Xception。

一、引言

二、轻量化模型

2.1 SqueezeNet

2.2 MobileNet

2.3 ShuffleNet

2.4 Xception

三、网络对比

一、引言

自 2012 年 AlexNet 以来，卷积神经网络（简称 CNN）在图像分类、图像分割、目标检测等领域获得广泛应用。随着性能要求越来越高，AlexNet 已经无法满足大家的需求，于是乎各路大牛纷纷提出性能更优越的 CNN 网络，如 VGG、GoogLeNet、ResNet、DenseNet 等。由于神经网络的性质，为了获得更好的性能，网络层数不断增加，从 7 层 AlexNet 到 16 层 VGG，再从 16 层 VGG 到 GoogLeNet 的 22 层，再到 152 层 ResNet，更有上千层的 ResNet 和 DenseNet。虽然网络性能得到了提高，但随之而来的就是效率问题。

效率问题主要是模型的存储问题和模型进行预测的速度问题（以下简称速度问题）

第一，存储问题。数百层网络有着大量的权值参数，保存大量权值参数对设备的内存要求很高；

第二，速度问题。在实际应用中，往往是毫秒级别，为了达到实际应用标准，要么提高处理器性能（看英特尔的提高速度就知道了，这点暂时不指望），要么就减少计算量。

只有解决 CNN 效率问题，才能让 CNN 走出实验室，更广泛的应用于移动端。对于效率问题，通常的方法是进行模型压缩（Model Compression），即在已经训练好的模型上进行压缩，使得网络携带更少的网络参数，从而解决内存问题，同时可以解决速度问题。

相比于在已经训练好的模型上进行处理，轻量化模型模型设计则是另辟蹊径。轻量化模型设计主要思想在于设计更高效的「网络计算方式」（主要针对卷积方式），从而使网络参数减少的同时，不损失网络性能。

本文就近年提出的四个轻量化模型进行学习和对比，四个模型分别是：SqueezeNet、MobileNet、ShuffleNet、Xception。

（PS：以上四种均不是模型压缩方法！！）

以下是四个模型的作者团队及发表时间

其中 ShuffleNet 论文中引用了 SqueezeNet；Xception 论文中引用了 MobileNet

二、轻量化模型

由于这四种轻量化模型仅是在卷积方式上做了改变，因此本文仅对轻量化模型的创新点进行详细描述，对实验以及实现的细节感兴趣的朋友，请到论文中详细阅读。

2.1 SqueezeNet

SqueezeNet 由伯克利&斯坦福的研究人员合作发表于 ICLR-2017，论文标题:

《SqueezeNet：AlexNet-level accuracy with 50x fewer parameters and <0.5MB》

命名：

从名字——SqueezeNet 就知道，本文的新意是 squeeze，squeeze 在 SqueezeNet 中表示一个 squeeze 层，该层采用 1*1 卷积核对上一层 feature map 进行卷积，主要目的是减少 feature map 的维数（维数即通道数，就是一个立方体的 feature map，切成一片一片的，一共有几片）。

创新点：

1. 采用不同于传统的卷积方式，提出 fire module；fire module 包含两部分：squeeze 层+expand 层

创新点与 inception 系列的思想非常接近！首先 squeeze 层，就是 1*1 卷积，其卷积核数要少于上一层 feature map 数，这个操作从 inception 系列开始就有了，并美其名曰压缩，个人觉得「压缩」更为妥当。

Expand 层分别用 1*1 和 3*3 卷积，然后 concat，这个操作在 inception 系列里面也有。

SqueezeNet 的核心在于 Fire module，Fire module 由两层构成，分别是 squeeze 层+expand 层，如下图 1 所示，squeeze 层是一个 1*1 卷积核的卷积层，expand 层是 1*1 和 3*3 卷积核的卷积层，expand 层中，把 1*1 和 3*3 得到的 feature map 进行 concat。

具体操作情况如下图所示：

Fire module 输入的 feature map 为 H*W*M 的，输出的 feature map 为 H*M*(e1+e3)，可以看到 feature map 的分辨率是不变的，变的仅是维数，也就是通道数，这一点和 VGG 的思想一致。

首先，H*W*M 的 feature map 经过 Squeeze 层，得到 S1 个 feature map，这里的 S1 均是小于 M 的，以达到「压缩」的目的，详细思想可参考 Google 的 Inception 系列。

其次，H*W*S1 的特征图输入到 Expand 层，分别经过 1*1 卷积层和 3*3 卷积层进行卷积，再将结果进行 concat，得到 Fire module 的输出，为 H*M*(e1+e3) 的 feature map。

fire 模块有三个可调参数：S1，e1，e3，分别代表卷积核的个数，同时也表示对应输出 feature map 的维数，在文中提出的 SqueezeNet 结构中，e1=e3=4s1。

讲完 SqueezeNet 的核心——Fire module，看看 Sq

原文链接：https://blog.csdn.net/Uwr44UOuQcNsUQb60zk2/article/details/79019191

你可能也喜欢