Meta发布MEGALODON:无限长文本大模型,参数仅7B,已全面开源
来源: | 作者:DE.News | 发布时间: 2024-04-18 | 369 次浏览 | 分享到:

关键字:Meta, MEGALODON, 无限长文本, 大语言模型, LLM, 参数规模, 开源, MEGA架构, CEMA, 时间步归一化, 归一化注意力, Transformer, 长上下文建模, 预训练效率, 长上下文QA任务, 计算效率, 模型稳定性, GitHub, LLAMA2, 7亿参数, 数据效率。

加利福尼亚,2024年4月18日 —— Meta公司宣布推出MEGALODON,一种新型无限长文本大模型,其参数量仅为7亿(7B),目前已在GitHub上全面开源。这一突破性技术旨在克服传统Transformer架构在处理长序列数据时遇到的二次复杂度和弱长度外推的局限性。

MEGALODON模型继承了MEGA架构的优势,并引入了包括复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制和具有两个特征的预归一化残差配置等创新技术组件,以提高模型的能力和稳定性。在与LLAMA2模型的直接比较中,MEGALODON在70亿参数规模上展现了更优的预训练效率和推理速度,其训练损失达到1.70,位于LLAMA2-7B(1.75)和13B(1.67)之间。

Meta的这一成就标志着在长文本处理能力上的重大进步,MEGALODON模型在不同任务和模式的一系列基准测试中均表现出色。此外,MEGALODON在长上下文建模的评估上,包括高达2M的上下文长度和长上下文QA任务中,证明了其对无限长度序列进行建模的能力。

技术元素

  1. 无限长上下文处理:MEGALODON能够处理无限长的文本输入。

  2. 7亿参数规模:模型具有7亿参数,展现了高效的数据处理能力。

  3. 开源代码:模型代码已在GitHub上开源,促进了社区的进一步研究和开发。

  4. MEGA架构改进:MEGALODON基于MEGA架构,利用门控注意力机制和指数移动平均(EMA)方法。

  5. 复数指数移动平均(CEMA):将EMA扩展到复数域,增强模型表达能力。

  6. 时间步归一化层:允许沿序列维度进行归一化,提升模型稳定性。

  7. 归一化注意力机制:专为MEGA定制,提高模型稳定性。

  8. Two-hop残差配置:改善了大规模预训练中的稳定性问题。

  9. 长上下文序列建模:在长文本处理任务中展现了有效性和鲁棒性。


注:数据公开渠道收集发布,版权出版方所有,此处不构成任何投资建议
返回