原理
仅将模型中卷积的float权值量化为int8存储,推理时反量化还原为float权值进行计算。因此,其推理速度和float模型一致,但是模型大小可以减小到原来的1/4,可以通过模型转换工具一键完成,比较方便。推荐float模型性能够用,仅需要减少模型大小的场景使用。
使用方法
使用MNNConvert
(c++)或者mnnconvert
(python包中自带)进行转换,转换命令行中加上下述选项即可:
--weightQuantBits 8 [--weightQuantAsymmetric](可选)
--weightQuantAsymmetric
选项是指使用非对称量化方法,精度要比默认的对称量化精度好一些。