提示工程技术(Prompt Engineering Techniques)
清华大学和哈工大研究团队联合提出新的高效模型压缩框架:OneBit
来源: | 作者:DE.News | 发布时间: 2024-04-06 | 359 次浏览 | 分享到:

近日清华大学和哈尔滨工业大学的研究团队提出了一种名为OneBit的1bit极限压缩框架,旨在实现大模型权重的高效压缩。

该框架能够在将模型大小压缩超过90%的同时,保留大部分(83%)的模型能力。这一突破性的成果对于在PC端甚至智能手机上部署大型模型具有重要意义。


OneBit框架的核心在于全新的1bit线性层结构、基于SVID(值-符号独立的矩阵分解)的参数初始化方法,

以及基于量化感知知识蒸馏的深度迁移学习。这些方法共同克服了1bit超低位宽量化中的精度损失问题,

并在训练和迁移过程中展现出稳定性。


在1bit量化中,每个权重值只能用1bit表示,即两种可能的状态。

OneBit框架采用±1作为这两种状态,通过Sign函数方便地获取。该框架通过将FP16模型的线性层替换为1bit线性层,

同时保持原始权重矩阵的高秩,并利用FP16精度的值向量提供必要的浮点精度。


OneBit框架的参数初始化方法SVID,将符号和绝对值分开,并进行秩-1近似,以更好地匹配1bit模型框架并实现参数初始化。

此外,研究团队还采用了量化感知训练QAT,通过知识蒸馏从教师模型中学习,以实现更好的能力迁移。


实验结果表明,OneBit框架在不同大小和系列的模型上都显示出优势,尤其是在大型模型上,压缩比越高,性能越好。

这一方法不仅在大小和性能之间取得了良好的平衡,而且在计算上具有优势,因为二进制表示的参数可以节省大量空间,

并降低硬件要求。


OneBit框架为大模型的压缩和部署提供了一种有效的解决方案,展示了在保持模型性能的同时实现极高压缩比的可能性。

这一成果对于推动AI模型在各种设备上的广泛应用具有重要的实际价值。


友情链接