近日清华大学和哈尔滨工业大学的研究团队提出了一种名为OneBit的1bit极限压缩框架,旨在实现大模型权重的高效压缩。
该框架能够在将模型大小压缩超过90%的同时,保留大部分(83%)的模型能力。这一突破性的成果对于在PC端甚至智能手机上部署大型模型具有重要意义。
OneBit框架的核心在于全新的1bit线性层结构、基于SVID(值-符号独立的矩阵分解)的参数初始化方法,
以及基于量化感知知识蒸馏的深度迁移学习。这些方法共同克服了1bit超低位宽量化中的精度损失问题,
并在训练和迁移过程中展现出稳定性。
在1bit量化中,每个权重值只能用1bit表示,即两种可能的状态。
OneBit框架采用±1作为这两种状态,通过Sign函数方便地获取。该框架通过将FP16模型的线性层替换为1bit线性层,
同时保持原始权重矩阵的高秩,并利用FP16精度的值向量提供必要的浮点精度。
OneBit框架的参数初始化方法SVID,将符号和绝对值分开,并进行秩-1近似,以更好地匹配1bit模型框架并实现参数初始化。
此外,研究团队还采用了量化感知训练QAT,通过知识蒸馏从教师模型中学习,以实现更好的能力迁移。
实验结果表明,OneBit框架在不同大小和系列的模型上都显示出优势,尤其是在大型模型上,压缩比越高,性能越好。
这一方法不仅在大小和性能之间取得了良好的平衡,而且在计算上具有优势,因为二进制表示的参数可以节省大量空间,
并降低硬件要求。
OneBit框架为大模型的压缩和部署提供了一种有效的解决方案,展示了在保持模型性能的同时实现极高压缩比的可能性。
这一成果对于推动AI模型在各种设备上的广泛应用具有重要的实际价值。