ConvNeXt模型详解及代码,如何实现?
摘要:这里介绍新的一个Backbone:ConvNeXt,主要来自两篇比较老的来自Meta论文:
1、《**A ConvNet for the 2020s**》
> arXiv:2201.03545&
之前介绍了CV常用Backbon:
CV中常用Backbone-1:Resnet/Unet/Vit系列/多模态系列等)以及代码
这里介绍新的一个Backbone:ConvNeXt,主要来自两篇比较老的来自Meta论文:
1、《A ConvNet for the 2020s》
arXiv:2201.03545
2、《ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders》
arXiv:2301.00808
两篇论文讲的都是一个模型:ConvNeXt。这也是证明一点:Vit效果好并不是attention本身而是因为transform的超大感受野和各种trick。因此作者也是不断借鉴Vit的操作(用斜体表示)
ConvNeXt v1
A ConvNet for the 2020s
⚙-官方代码:https://github.com/facebookresearch/ConvNeXt/blob/main/models/convnext.py
⚙-自己修改:https://www.big-yellow-j.top/code/ConvNeXt.py
值得注意的一点是在 ConvNeXt 其实就是一个大型的模型调参(不断调节网络参数取得不错效果,于此同时作者对于模型为什么这么做也都是:对比其他模型做法而后而后借鉴到自己做法中),首先作者在论文中做了如下的一些对比(和采用 swin-transformer的resnet进行对比):
模型在改进上主要是如下几点:1、macro design;2、 ResNeXt;3、inverted bottleneck;4、large kernel size;5、various layer-wise micro designs。
1、Macro design
这一点主要是对模型的参数结构做了调整在准确率的提升上起到的效果还是比较有限的
在这里作者主要是做了如下几点修改:1、修改堆叠数量。将ResNet-50中的block堆叠数量从:\((3,4,6,3)\) 改为:\((3,3,9,3)\)。之所以这样设计作者对比 Swin Transformers中主要的比率 为:\((1,1,9,1)\) 通过这样调整对于准确率提升还是比较有限的(78.8%-->79.4%),resnet中堆叠数量
2、修改卷积核。这点没有过多解释直接使用:步长为4,大小也为4的卷积操作(这里是因为:在 Vit网络架构中通常使用一个步长为4,大小也为4的卷积 ),准确率有79.4%-->79.5%
除此之外作者还有一点修改就是将最初的 通道数由64调整成96和Swin Transformer保持一致 ,准确率:80.5%
2、Inverted bottleneck
上面第1点是做模型宏观参数(卷积核大小等)做修改,而在这里作者做得主要修改网络结构顺序
a:resnet;b:MobileNetV2;c:ConvNeXt
这里作者给出的解释是:在Vit中的MLP做的处理和上图中的(b)操作很相像(代码:⚙)
...
self.linear1 = nn.Linear(embed_dim, dim_feedforward)
self.dropout = nn.Dropout(dropout)
self.linear2 = nn.Linear(dim_feedforward, embed_dim)
...
src2 = self.linear2(self.dropout(F.relu(self.linear1(src2))))
因此作者给出的做法是:先降低后提高。在较小的模型上准确率由80.5%提升到了80.6%,在较大的模型上准确率由81.9%提升到82.6%。
