抖音发布低位宽高精度的模型量化新方法decoupleQ

提示工程技术（Prompt Engineering Techniques）

来源: | 作者:DE.News | 发布时间: 2024-05-14 | 450 次浏览 | 分享到:

通过将参数解耦为整数和浮点数实现2位后训练统一量化的decoupleQ方法

关键字： 模型量化（Model Quantization）后训练量化（Post-Training Quantization, PTQ）统一量化（Uniform Quantization）参数解耦（Parameter Decoupling）整数部分（Integer Part）浮点部分（Floating-Point Part）优化方法（Optimization Methods）自动语音识别（Automatic Speech Recognition, ASR）

随着大型深度学习模型在各种实时应用中的广泛部署，模型的存储和推理成本成为了一个突出问题。为了解决这一问题，研究者们提出了多种模型量化技术。然而，现有的量化方案在极低比特宽度下会遭受显著的精度损失，或者在部署时需要额外的计算开销，这限制了它们在大规模工业应用中的使用。本文提出了一种新的量化方法decoupleQ，它通过将模型参数解耦为整数部分和浮点部分，将量化问题转化为传统的数学优化问题，并交替使用现成的优化方法求解。这种方法不仅提高了模型在极低比特下的量化精度，而且其线性和统一的量化方式也更受硬件友好，可以迁移到高比特量化以增强其鲁棒性。文章的主要问题是如何实现在极低比特下仍保持高精度的模型量化。论证逻辑是提出一种新的量化范式，通过数学优化的方式解决传统量化方案的局限性。观点总结是decoupleQ方法在2位量化下能够达到与fp16/bf16相当的在线精度，并且具有很好的可扩展性。

文章目标

提出一种新的后训练量化方法decoupleQ，以提高在极低比特下的量化精度。
展示decoupleQ方法在自动语音识别模型中的应用和效果。

文章要点

decoupleQ方法通过参数解耦和数学优化建模，简化了量化问题。
该方法实现了线性和统一的量化，提高了硬件效率。
decoupleQ包含两个阶段：层级最小化和块级最小化。

核心技术点

参数解耦：将模型权重参数解耦为整数部分和浮点部分。
数学优化：将量化问题转化为有约束的数学优化问题。
交替优化：通过交替优化整数部分和浮点部分来求解量化问题。

核心模型计算方法

decoupleQ方法的核心计算方法包括两个阶段：

层级最小化：通过最小化预量化和后量化输出之间的ℓ2损失来优化整数部分和浮点部分。
块级最小化：在这个阶段，固定整数部分的权重，并通过微调浮点部分和其他参数来进一步优化模型精度。

实验结论

文章中的实验结果表明，decoupleQ在字节跳动的自动语音识别模型上取得了与fp16/bf16相当的量化精度。此外，文章还提供了在ImageNet上的ResNet模型和其他模型上的比较实验，显示了decoupleQ在不同设置下的性能。实验数据表明，随着校准数据集大小的增加，模型的准确度也会提高，但量化所需的时间也随之增加。

decoupleQ方法通过将模型参数解耦为整数和浮点部分，并将其视为一个受约束的数学优化问题，成功地提高了在极低比特下的量化精度。该方法不仅适用于后训练量化，还可以扩展到监督学习以进一步提高模型精度，或者适应下游子任务。decoupleQ方法在自动语音识别模型中的应用证明了其有效性和可扩展性。