英伟达Nemotron-4 340B模型:开源AI新纪元,合成数据训练的未来
来源: | 作者:DE.News | 发布时间: 2024-06-16 | 159 次浏览 | 分享到:

英伟达Nemotron-4 340B模型:开源AI新纪元,合成数据训练的未来



关键字:英伟达(NVIDIA) 开源模型(Open Source Model) Nemotron-4 340B 大型语言模型(Large Language Model, LLM) 合成数据(Synthetic Data) 多语言支持(Multilingual Support) 性能基准(Performance Benchmark) 硬件灵活性(Hardware Flexibility)


    全球领先的人工智能计算公司英伟达(NVIDIA)近日宣布推出一款具有革命性的开源大型语言模型(LLM)——Nemotron-4 340B。这一模型的发布,预示着AI训练方式的重大转变,有望彻底改变依赖昂贵真实世界数据集的传统训练模式。

Nemotron-4 340B模型家族包括基础版(Base)、指令版(Instruct)和奖励版(Reward),均在NVIDIA开放模型许可协议下开放访问。该协议允许用户自由分发、修改和使用这些模型及其输出。英伟达相信,这些模型将在各种研究和商业应用中发挥巨大作用,特别是在生成合成数据以训练更小型的语言模型方面。

引人注目的是,Nemotron-4 340B模型在对齐过程中使用了超过98%的合成数据,这不仅展示了模型在合成数据生成方面的强大能力,也进一步支持了开放研究并促进了模型开发。此外,英伟达还开源了合成数据生成流程,为AI社区提供了宝贵的资源。

在性能上,Nemotron-4 340B已经证明了其与当前市场上其他领先的大型语言模型相媲美的能力,包括在多个评估基准上的优异表现。它甚至在某些方面超越了Mixtral 8x22B、Claude sonnet、Llama3 70B和Qwen 2等模型,并在与GPT-4的比较中展现出了竞争力。

Nemotron-4 340B模型支持高达4K的上下文窗口,能够处理50多种自然语言和40多种编程语言,训练数据覆盖范围直至2023年6月。在训练过程中,英伟达使用了高达9万亿个token,其中8万亿用于预训练,1万亿用于继续训练以提高模型质量。

此外,Nemotron-4 340B模型在BF16精度下进行推理需要8块H200 GPU,或16块H100/A100 80GB GPU。而在FP8精度下,推理则仅需要8块H100 GPU。这表明了模型在硬件需求上的灵活性。

主要技术元素:

  1. 开源模型家族:包括基础版、指令版和奖励版。

  2. 超过98%的合成数据使用率,减少对昂贵真实数据集的依赖。

  3. 支持4K上下文窗口、50多种自然语言和40多种编程语言。

  4. 训练使用高达9万亿个token,包括8万亿预训练和1万亿继续训练。

  5. 在多个评估基准上与当前领先模型相媲美或更优的性能。

  6. 灵活的硬件需求,支持BF16和FP8精度下的推理。


英伟达的这一创新模型,无疑将对医疗、金融、制造业、零售业等多个行业产生深远的影响,为这些领域带来突破性的AI应用。然而,合成数据的普及也引发了关于数据隐私、安全和伦理问题的关注。


返回
深度元素科技,您的信赖之选