提示工程技术(Prompt Engineering Techniques)
JetMoE:全华人团队打造,10万美元训出超越Llama-2的高效大模型!
来源: | 作者:DE.News | 发布时间: 2024-04-07 | 441 次浏览 | 分享到:

关键字:JetMoE - MoE模型 - Llama-2 - 训练成本 - 10万美元 - 性能 - 开源 - 公开数据集 - 消费级GPU - 微调 - 推理过程 - 计算成本 - 评测基准 - SOTA - OpenLLM Leaderboard - LLaMA-13B - LLaMA2-7B - Deepseek MoE-16B - MT-Bench基准 - MIT-IBM Watson Lab - 3D成像 - 数据高效机器学习 - 稀疏专家混合(SMoE) - 模块化架构 - 学习率 - 批量大小 


由MIT、普林斯顿等研究机构联合打造的JetMoE模型,是一个新型的MoE(混合专家)模型,它在性能上超越了同等规模的Llama-2模型,

但尺寸更小。JetMoE的训练成本仅为10万美元,相比Llama-2数十亿美元的投入成本,显著降低。

这一成就得到了包括贾扬清在内的业界人士的关注和转发。


JetMoE模型的灵感来源于ModuleFormer的稀疏激活架构,它在注意力层中使用了MoE。

该模型共有24个区块,每个区块包含2个MoE层,分别是注意力头混合(MoA)和MLP专家混合(MoE)。

每个MoA和MoE层有8个专家,每次输入token激活2个。


JetMoE-8B模型使用公开数据集中的1.25T token进行训练,学习率为5.0x10^-4,全局batch size为4M token。


训练方案遵循MiniCPM的思路,分为两个阶段:第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练;

第二阶段使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

最终,使用96×H100的GPU集群,花费2周时间和约8万美元完成了JetMoE-8B的训练。


在推理过程中,JetMoE-8B由于仅具有22亿个激活参数,计算成本大幅降低,同时保持了出色的性能表现。

在多个评测基准上,JetMoE-8B获得了5个SOTA(State of the Art),包括在OpenLLM Leaderboard上超越了LLaMA-13B、LLaMA2-7B和Deepseek MoE-16B等模型。


JetMoE模型的四位作者分别是Yikang Shen(MIT-IBM Watson Lab研究员)、国振(Gavin Guo,MIT博士在读)、

蔡天乐(普林斯顿博士在读生)和曾逸群(Zengyi Qin,MIT博士在读及MyShell的AI研发主管)。

更多技术细节将在不久后发布的技术报告中揭露。

JetMoE模型的开源性质和对学术界的友好态度,使得它能够被广泛地应用于各种研究和应用场景中。


友情链接