【OpenMMLab 实战营打卡-第2课】计算机视觉之图像分类算法基础

  • Post author:
  • Post category:其他




一. 图像分类的数学表示



1. 提出问题


图像分类

问题旨在设计一个

函数

满足从

图像



类别

的映射,且该映射关系是符合人类认知的。

在这里插入图片描述



2. 研究难点

对于机器而言,图像内容不过是由一串

像素值

所组成。人类很难

显式

地定义一套

规则

来设计算法,教会机器去理解图片中的内容。

在这里插入图片描述



3. 初步尝试

人类尝试基于

手工特征提取



机器学习

的方法来从数据中实现图像分类任务,然而手工特征设计仅仅局限于像素层面的计算,丢失了图像的其他维度的信息,基于特征工程的图像分类方法性能到达瓶颈。

在这里插入图片描述

在这里插入图片描述



4. 特征学习

我们使用卷积实现

可学习的特征提取

,让分类器学习如何产生合适分类的特征,完成对图像数据的一个编码过程。

在这里插入图片描述



二、模型设计



1. 卷积神经网络


AlexNet

作为基于深度学习的计算机视觉的开山之作,创新提出了使用

卷积网络

来实现图像的特征提取,使用了

ReLU激活函数

提高了收敛速度,并率先开启在

GPU

上训练大规模神经网络的浪潮。

在这里插入图片描述


VGG

使用边界填充Padding来维持空间分辨率不变,并且每隔几层倍增通道数、减半分辨率,提取了更高抽象层级的特征。

在这里插入图片描述


ResNet

使用了更深更多的网络层数,并且在高级特征和低级特征之间增加了连接,等同于多模型集成, 使得损失函数平面更加平滑,更容易收敛到最优解。

在这里插入图片描述



2. 轻量化卷积神经网络

由于模型网络层数和网络结构越来越复杂,需要学习的网络参数也就越来越多,人们尝试寻找一些方法降低参数量和计算量,因此提出了

轻量化卷积神经网络



a.可分离卷积

可分离卷积将常规卷积分解成

逐层卷积

核和

逐点卷积



在这里插入图片描述



b. 分组卷积


可分组卷积



可分离卷积

一种特殊情况,当

组数=通道数



在这里插入图片描述



3. 神经结构搜索

借助

强化学习

的方法来帮助人类设计合适

网络层数



网络连接



在这里插入图片描述



4. Transformer



机器翻译

中性能优异的

Transformer

模型移植到图像分类中,引入了

注意力机

制实现了图像层次化特征。

在这里插入图片描述



三、模型学习



1. 监督学习


监督学习

是指从

标注

好了的数据中学习经验。

在这里插入图片描述



a. 损失函数

图像分类任务中常见的损失函数是

交叉熵损失函数



在这里插入图片描述



b. 梯度下降

常见的优化器有随机梯度下降SGD算法。

在这里插入图片描述



自监督学习


自监督学习



无标注数据集

上学习经验,常见的类型有

基于代理任务



基于对比学习



基于掩码学习

等。

在这里插入图片描述



版权声明:本文为xingchengyonghen原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。