公式介绍
本人初入模型量化的坑,对量化的一些过程还不是很理解,于是做了一些可视化的小实验,来帮助更好地理解公式。
下面的公式来自于论文《LEARNED STEP SIZE QUANTIZATION》(ICLR, 2020) 和《LSQ+: Improving low-bit quantization through learnable offsets and better initialization》(CVPR,2020):
上面的公式算是比较经典的量化公式了,中规中矩的公式。
公式 (1) 采用的即是均匀量化方法,
c
l
i
p
(
a
,
n
,
p
)
clip(a,n,p)
c
l
i
p
(
a
,
n
,
p
)
会将数据 a “钳制”到 [n,p] 范围内,
r
o
u
n
d
(
a
)
round(a)
r
o
u
n
d
(
a
)
即对数据a进行四舍五入操作。
z
z
z
称作量化零点,可以理解为一个位移量。
s
s
s
称作量化尺度 (scale),可以理解为一个缩放因子。“
x
−
z
s
\frac{x-z}{s}
s
x
−
z
” 就是在做变换 (规范化,利于离散化)。公式 (1) 称作
量化过程
,得到的
x
ˉ
\bar{x}
x
ˉ
称作
量化结果
。需要注意的是
x
ˉ
\bar{x}
x
ˉ
此时为整数形式。
公式 (2) 很明显就是在做一个缩放、位移操作,称为
反量化过程
,得到的
x
^
\hat{x}
x
^
称作“反量化结果”。需要注意的是
x
^
\hat{x}
x
^
此时为小数形式。
公式 (1) (2) 统一起来即完成了一个
离散化过程
,将原来的数据离散到有限的值内。若是在硬件部署模型的话,只需要储存整数形式的
x
ˉ
\bar{x}
x
ˉ
、FP32的
s
s
s
、INT16的
z
z
z
即可,而前向推理时再通过公式 (2)恢复出高精度值。
需要注意的是,本文指的3-bit量化是有
2
3
=
8
2^3=8
2
3
=
8
个量化电平 (Quantization level) ,即有8个有限的离散表征点:-4、-3、-2、-1、0、1、2、3,并不是对称的。实际模型量化由于考虑到算子溢出问题,会是对称的,也就是只有7个量化电平,这里不做赘述。
量化零点
z
z
z
在离散化过程中的作用
图 (1). 初始化一个以0为中心的高斯分布集,3-bit量化下 z 增大
图 (2). 初始化一个以-2为中心的高斯分布集,2-bit量化下 z 增大
图 (3). 初始化一个以0为中心的高斯分布集,2-bit量化下 z 增大
图 (4). 初始化一个以0为中心的高斯分布集,3-bit量化下 z 减小
图 (5). 初始化一个以-2为中心的高斯分布集,2-bit量化下 z 减小
可以发现,量化零点使得分布偏移。其实我们最想要的情况是如图 (3) (5)那样的变化过程,使原数据的大部分都能被充分量化,换句话说就是尽量让clip所钳制的值更合理些。
- Z增大(或者为正数)时,量化后的分布会左移。而反量化后的分布会右移动,移回原数据分布所在的中心。
-
Z减小(或者为负数)时,量化后的分布会右移。而反量化后的分布会左移动,移回原数据分布所在的中心。
量化尺度
s
s
s
在离散化过程中的作用
图 (6). 初始化一个以0为中心的高斯分布集,3-bit量化下 s 增大
图 (7). 初始化一个以-2为中心的高斯分布集,2-bit量化下 s 增大
图 (8). 初始化一个以0为中心的高斯分布集,3-bit量化下 s 减小
图 (9). 初始化一个以-2为中心的高斯分布集,2-bit量化下 s 减小
可以发现,s确实起到缩放作用。量化前通过s变换成新形态,反量化时再通过s变换回来。
- 当s增大(或者大于1)时,数据向中心的量化电平富集,反量化后最小刻度增大。
-
当s减小(或者小于1)时,数据向靠近边缘的量化电平富集,反量化后最小刻度减小。
量化尺度
s
s
s
和量化零点
z
z
z
联合作用
图 (10). 初始化一个以0为中心的高斯分布集,2-bit量化下 s 、z均增大
可以看到图 (10) 最后达到了一个比较良好的效果,即在保证大部分数据充分量化情况下,也合理地丢掉了小部分的离群点。这样的量化是我们一般想达到的效果。