关键字:谷歌,Transformer,Mixture-of-Depths,MoD,DeepMind,麦吉尔大学,David Raposo,Adam Santoro,计算资源,动态分配,神经网络,人工智能,FLOPs,负载平衡,ResNet。
北京,2024年4月17日 —— 谷歌在人工智能领域再次取得突破,发布了最新Transformer架构的更新版本——Mixture-of-Depths(MoD)。这一更新改变了传统的Transformer计算模式,通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高了训练效率和推理速度。
MoD的核心创新在于,它在输入序列中的特定位置动态分配FLOPs(运算次数或计算资源),优化不同层次的模型深度中的分配。这种方法迫使神经网络学会主要关注真正重要的信息,从而在节省计算资源的同时提高效率。实验结果显示,在等效计算量和训练时间上,MoD每次向前传播所需的计算量更小,而且后训练采样过程中步进速度提高了50%。
这项研究由DeepMind和麦吉尔大学共同完成,主要贡献者是David Raposo和Adam Santoro,两位都是DeepMind的研究科学家。他们的这项工作在人工智能领域引起了广泛关注,人们已经开始探讨MoD与MoE(Mixture of Experts)结合的可能性,即MoDE,这可能会进一步提供更好的性能和更快的推理速度。
MoD的推出,让人联想到了在深度学习领域具有里程碑意义的ResNet架构。与ResNet不同,MoD跳过连接是完全绕过层的,这种方法的动态性让人们对其在实际应用中的潜力充满期待。
技术元素:
Mixture-of-Depths (MoD):谷歌新发布的Transformer架构更新,旨在改变传统的计算模式。
动态分配计算资源:MoD通过动态分配大模型中的计算资源,并跳过一些不必要计算,以提高训练效率和推理速度。
计算量减少与效率提升:MoD在等效计算量和训练时间上每次向前传播所需的计算量更小,后训练采样过程中步进速度提高了50%。
关注重要信息:MoD的设计迫使大模型在训练和推理中关注真正重要的信息,而不是平均分配计算资源给所有token。
FLOPs优化:MoD在输入序列中的特定位置动态分配FLOPs(运算次数或计算资源),优化模型深度中的分配。
自注意力和MLP计算限制:通过限制给定层的自注意力和多层感知机(MLP)计算的token数量,MoD让神经网络更专注于重要信息。
静态计算图:MoD使用已知张量大小的静态计算图,允许在时间和模型深度上动态扩展计算量。
Expert-choice MoD:利用router输出的权重来确定哪些token将参与transformer计算,而权重较小的token通过残差连接绕过计算。
MoD实验性能:MoD在不同实验中表现出色,能够在较低的损失水平上拥有更多的参数,并且在计算节省方面即使在训练之外也依然有效。
MoD与MoE结合:研究团队探讨了MoD和Mixture of Experts (MoE) 结合的可能性,称为MoDE,这可能提供更好的性能和更快的推理速度。