在网络最后的输出中,对于每个grid cell(网格单元)产生3个bounding box,每个bounding box的输出有三类参数:一个是对象的box参数,一共是四个值,即
box的中心点坐标(x,y)和box的宽和高(w,h)
;一个是
置信度
,这是个区间在[0,1]之间的值;最后一个是一组
条件类别概率
,都是区间在[0,1]之间的值,代表概率。
假如一个图片被分割成S∗S个grid cell,我们有B个anchor box,也就是说每个grid cell有B个bounding box, 每个bounding box内有4个位置参数,1个置信度,classes个类别概率,那么最终的输出维数是:S∗S∗[B∗(4+1+classes)]。
下面分别具体介绍这三个参数的意义。
YOLO3中grid cell理解。
yolo3中的grid cell 的数量根据三种预测尺度分别为13×13,26×26,52×52(输入图像为416×416),每个grid cell根据3个anchor预测三个bbox, 每个bbox可以是不同的类。
随着输出的特征图的数量和尺度的变化,先验框的尺寸也需要相应的调整。YOLO2已经开始采用 K-means聚类 得到先验框的尺寸,YOLO3延续了这种方法,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。
在COCO数据集这9个先验框是:(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90),