1. 小吐槽
OverFeat是我看的第一篇深度学习目标检测paper,因为它是第一次用深度学习来做定位、目标检测问题。可是,很难懂。。。那个bounding box写得也太简单了吧。虽然,很努力地想理解还找了很多博客、论文什么。后来,还是看RCNN,总算有点理解。
2. 对bounding box的误解
我一直以为卷积网络最后可以得到四个值:分别表示学习到的bounding box坐标,然后回归的目标是将这四个坐标与ground truth的四个坐标进行比较回归。其实不是这样的!正文如下
3. bounding box
(1) 一开始会有预测的边框值输入。原来的分类问题只是输入一张图,但是现在对于输入的图还有它在原图中的位置信息。比如滑动窗口、RCNN中selective search给出的区域提案等,产生用于分类判断的区域$P$
(2) 输入的图会通过卷积网络学习提取出特征向量$\phi_5(P)$
(3) 目标检测的一个目标是希望最后的bounding box(P)和ground truth(G)一致,但是实现方法并
不是学习坐标,而是学习变形比例
:包括两个部分,一个是对
边框(x, y)进行移动,一个是对边框大小(w, h)进行缩放