CV 北邮 鲁鹏老师 图像分类任务和线性分类器(上)learning dialog(二)

  • Post author:
  • Post category:其他


原视频链接:



计算机视觉与深度学习 北京邮电大学 鲁鹏 清晰版合集(完整版)_哔哩哔哩_bilibili



https://www.bilibili.com/video/BV1V54y1B7K3?p=2


难点:

(1)角度:只提取了某些特定角度的特征

(2)光照:同理,只提取了特定光照条件下的图像特征

(3)尺度:只提取了特定大小的目标的特征

(4)遮挡

(5)形变:只提取了目标特定形态的特征

(6)背景杂波:背景与目标特征类似,比如颜色、花纹类似

(7)类内形变:比如不同形态的椅子。这与形变似乎可以归于一类

(8)运动模糊:相机问题。感觉还是形变。可以通过算法进行像素反推

一个普通人可以进行10000-30000种分类

探索:

(1)基于规则的方法:硬编码,即由人来显示地定义一些规则。这显然是无法处理上述的那些难点。目前而言,似乎人为什么能进行这样的分类还是缺乏解释性的。

我高中用才学会的C来写chatbot的时候,就是用的硬编码,自己捣鼓的规则,造了一个很大的字符数组,用随机函数来生成句子。纯粹是自嗨的东西,但很快乐。

(2)数据驱动的图像分类:1.建立数据集  2.分类器的设计与训练 3.分类器的决策,即推理

特征工程

1.图像表示:1>像素表示 2>全局特征 3>局特   总之,特征提取的越准确越好。比如说,感冒,最关键的特征可能就是白细胞的数值,但假如你提供了无关的几万个特征,意义就不大

2.分类器:近邻,贝叶斯,随机森林,SVM,adaboost,线性,神经网络

3.loss function:0-1损失,交叉熵(很常用)

4.迭代优化法:一阶:GD,SGD,小批量SGD

5.训练过程:数据集划分、预处理(改名字、剔除垃圾数据)、增强、拟合度、超参、模型集成

imagenet:top评价, top5评价

输入:很多分类器都要求输入是向量。那么就需要将图像按从左到右,从上到下的顺序将像素输入

线性分类器定义:

感觉上有点像只有输入输出层的神经网络

CIFAR10数据集:W的维度 3072*10(特征个数 * 类别个数),x的维度 3072(3072个特征),此数据集10个类,图像是三通道

对训练完成的10个Wi做可视化,会发现很像对应的那个类。比如说车,马(马是双头的,左右都有)

损失函数的一般定义:建立loss和W之间的联系。比如说均方差,均差

多类支撑向量机损失(折页损失):实际类别的那个类的得分比其他类别得分至少高一分,则没有损失;否则损失为差值+1。

这其实跟神经网络中把sigmoid函数换成relu类似,都简化了运算

理解:不同的loss function求得最小值的路径是不同的,这就会导致W的根本不同,从而分类器也就根本不同了



版权声明:本文为hands_up_down原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。