最容易理解的ConViT: Improving Vision Transformerswith Soft Convolutional Inductive Biases
之前的博客介绍了transformer和transformer在CV领域应用的VIT论文,有兴趣的同学可以参考 transformer 、 VIT 。VIT虽然在性能上已经达到了目前图像分类的SOTA的程度,但是它需要依赖巨大的数据集,比如Google的JFT都是以亿为单位计算的。显然,作为我们这种个人玩家是无法应用的,那么Facebook继VIT之后,推出ConVit解决了该问题。本想看看哪位大…