改变网络结构设计,如何实现模型压缩与加速的效应?
摘要:Group convolution Group convolution最早出现在AlexNet中,是为了解决单卡显存不够,将网络部署到多卡上进行训练而提出。Group convolution可以减少单个卷积1g的参数量。如何计算的呢?
Group convolution
Group convolution最早出现在AlexNet中,是为了解决单卡显存不够,将网络部署到多卡上进行训练而提出。Group convolution可以减少单个卷积1/g的参数量。如何计算的呢?
假设
输入特征的的维度为$HWC_1$;
卷积核的维度为$H_1W_1C_1$,共$C_2$个;
输出特征的维度为$H_1W_1C_2$ 。
传统卷积计算方式如下:
传统卷积运算量为:
$$ A = H*W * h1 * w1 * c1 * c2 $$
Group convolution是将输入特征的维度c1分成g份,每个group对应的channel数为c1/g,特征维度H * W * c1/g;,每个group对应的卷积核的维度也相应发生改变为h1 * w1 * c1/9,共c2/g个;每个group相互独立运算,最后将结果叠加在一起。
Group convolution计算方式如下:
Group convolution运算量为:
$$ B = H * W * h1 * w1 * c1/g * c2/g * g $$ Group卷积相对于传统卷积的运算量:
$$ \dfrac{B}{A} = \dfrac{ H * W * h1 * w1 * c1/g * c2/g * g}{H * W * h1 * w1 * c1 * c2} = \dfrac{1}{g} $$
由此可知:group卷积相对于传统卷积减少了1/g的参数量。
Depthwise separable convolution
Depthwise separable convolution是由depthwise conv和pointwise conv构成。
depthwise conv(DW)有效减少参数数量并提升运算速度。但是由于每个feature map只被一个卷积核卷积,因此经过DW输出的feature map不能只包含输入特征图的全部信息,而且特征之间的信息不能进行交流,导致“信息流通不畅”。
pointwise conv(PW)实现通道特征信息交流,解决DW卷积导致“信息流通不畅”的问题。 假设输入特征的的维度为H * W * c1;卷积核的维度为h1 * w1 * c1,共c2个;输出特征的维度为 H1 * W1 * c2。
传统卷积计算方式如下:
传统卷积运算量为:
$$ A = H * W * h1 * w1 * c1 * c2 $$
DW卷积运算量为: $$ B_DW = H * W * h1 * w1 * 1 * c1 $$
PW卷积的计算方式如下:
$$ B_PW = H_m * W_m * 1 * 1 * c_1 * c_2 $$
Depthwise separable convolution运算量为:
$$ B = B_DW + B_PW $$ Depthwise separable convolution相对于传统卷积的运算量:
$$ \dfrac{B}{A} = \dfrac{ H * W * h_1 * w_1 * 1 * c_1 + H_m * W_m * 1 * 1 * c_1 * c_2}{H * W * h1 * w1 * c_1 * c_2}= \dfrac{1}{c_2} + \dfrac{1}{h_1 * w_1} $$
由此可知,随着卷积通道数的增加,Depthwise separable convolution的运算量相对于传统卷积更少。
输入输出的channel相同时,MAC最小
卷积层的输入和输出特征通道数相等时MAC最小,此时模型速度最快。
假设feature map的大小为h*w,输入通道$c_1$,输出通道$c_2$。
已知:
$$ FLOPs = B = h * w * c1 * c2=> c1 * c2 = \dfrac{B}{h * w}$$
$$ MAC = h * w * (c1 + c2) + c1 * c2$$
$$ => MAC \geq 2 * h * w \sqrt{\dfrac{B}{h * w}} + \dfrac{B}{h * w} $$
根据均值不等式得到$(c1-c2)^2>=0$,等式成立的条件是c1=c2,也就是输入特征通道数和输出特征通道数相等时,在给定FLOPs前提下,MAC达到取值的下界。
