提示工程技术(Prompt Engineering Techniques)
Jamba新型混合架构,打败Transformer
来源: | 作者:DE.News | 发布时间: 2024-04-06 | 324 次浏览 | 分享到:

Jamba的新型混合架构

    它结合了Mamba和Transformer两种架构的优点,以提高模型的性能和效率。Jamba模型拥有520亿参数,能够在处理长上下文时提供更高的吞吐量,同时保持较低的内存占用。这项技术由以色列AI公司AI21 Labs开发,得到了Mamba原作者的认可和转发。

Jamba架构的创新之处在于它采用了块层(blocks-and-layers)组合的方法,每个Jamba块包含一个注意力层或一个Mamba层,以及一个多层感知器MLP。

这种设计确保了每八层中有一个Transformer层,从而优化了内存、吞吐量和性能。此外,Jamba还利用了混合专家模型(MoE)层来增加模型参数的总量,同时在推理过程中简化活动参数量,使得模型容量提高而计算需求不相应增加。

Jamba的性能在初步评估中显示出色,特别是在长上下文处理中的吞吐量是同类Transformer模型的三倍。它在单张GPU上能够处理高达140k的上下文,

这一数字远超同类模型。此外,Jamba在一系列推理基准测试中表现出色,其中在4项测试中有3项达到了最佳性能(SOTA)。

Jamba的另一个亮点是它已经上线到Hugging Face平台,并且采用Apache 2.0许可,这意味着它将对社区开放,允许广泛的使用和修改。

这一成果不仅展示了混合架构的潜力,也为未来的AI研究和应用提供了新的可能性。

Jamba的问世标志着AI领域的一个重要进展,它通过结合Mamba和Transformer架构的优点,实现了在保持高效率的同时处理长上下文的能力,

为AI模型的发展提供了新的方向。随着进一步的优化和改进,Jamba的性能有望得到更大的提升,为AI技术的应用带来更多的可能性。


友情链接