Meta Llama-3模型全新发布:开源、高效、多语言支持的语言模型新巨擘
来源: | 作者:DE.News | 发布时间: 2024-04-19 | 334 次浏览 | 分享到:

关键字:Meta, Llama-3, LLM, 开源, 商用, Transformer架构, 混合调优, SFT, RLHF, 性能测试, 数据训练, 多语言支持, 碳排放抵消, 法律合规, GQA, 性能提升, 自回归, 文本生成, 对话应用, 基准测试, 准确率, 模型优化, 响应速度

加利福尼亚,2024年4月19日 —— Meta(Facebook的母公司)AI团队今日宣布,经过9个月的深入研发,正式推出Meta Llama-3系列语言模型(LLM),包括8B和70B两种参数规模的模型,现已全面开源,并允许免费商用(月活跃用户数不超过7亿)。这一举措标志着Meta在大型语言模型领域的最新进展,旨在推动语言技术的发展和应用。 Llama-3模型在技术性能上实现了显著提升,支持8k上下文长度,相比前代产品4k上下文长度有了翻倍的扩展。此外,Llama-3在多个行业标准基准测试中展现了卓越的性能,特别是在对话类应用中,其表现超越了众多现有的开源聊天模型,在实用性和安全性评估中,与那些市面上流行的闭源模型不相上下

性能表现

  • Meta Llama 3 的 70B 模型在多项基准测试中显示出色的性能,例如在 TriviaQA-Wiki 测试中达到了 89.7% 的准确率,明显优于其他同规模模型。

  • 在内部开发的高质量人类评估集中,该评估集包含了 1,800 个提示,覆盖了 12 个关键用例(包括咨询、编码、创意写作等),Llama 3 在这些实际应用场景中的表现同样卓越。

部署

Meta 项目官网地址:
https://llama.meta.com/llama-downloads

Github项目地址:
https://github.com/meta-llama/llama3

技术元素

  1. 开源模型:8B和70B参数规模的模型均已开源,允许商用。

  2. Transformer架构:采用优化的自回归Transformer架构,专为复杂文本生成任务设计。

  3. 混合调优:结合了监督式微调(SFT)和带人类反馈的强化学习(RLHF)。

  4. 性能测试:在多项基准测试中表现优异,如在TriviaQA-Wiki测试中达到89.7%的准确率。

  5. 数据训练:使用超过15万亿令牌的公开在线数据进行预训练,涵盖30种语言。

  6. 碳排放抵消:Meta承诺通过可持续性计划抵消预训练过程中产生的所有CO2排放。

  7. 法律合规:严格遵守法律法规,确保不被用于非法活动,重视知识产权和合规性。

  8. 架构与优化:引入分组查询注意力(Grouped Query Attention, GQA)技术,提升大数据处理效率和响应速度。



返回
深度元素科技,您的信赖之选