大模型专栏
记录和追踪AI行业大模型最新技术进展和趋势分析报告。洞察AI应用和技术发展走向,如大模型创意和创新AI应用、训练、微调、多模态融合发展,及在众多行业垂直领域中的实践探索,帮助深入了解大模型发展相关的技术和产品进化脉络,助力把AI时代握发展机遇。
更多
  • Atom-7B-chat模型教程

    [大模型教程] Atom-7B-chat模型教程

    2025-10-28

    Atom-7B-Chat是由Llama中文社区和原子回声(AtomEcho) 联合研发的一款开源中文对话大模型。它基于Meta的Llama2-7B架构,并针对中文场景进行了深度优化。以下是其主要特性:卓越的中文理解与生成:模型在Llama2的基础上,采用了超过1T token的高质量中文数据进行持续预训练。数据涵盖百科、新闻、小说、法律、医疗、代码等多个领域,并针对中文词表进行了优化,使中文编码/解码速度提升了约350%。强大的对话与上下文处理能力:作为对话模型(Chat),它能够流畅地进行多轮对话。模型默认支持4K上下文长度,并可通过技术扩展至更长,更好地处理长文本对话、问答与摘要等任务。高效的开源模型:它采用了FlashAttention-2技术进行训练,具有更快的速度和更优化的内存占用。模型完全开源且支持商用,其轻量化设计也便于在消费级显卡上部署和使用。

  • DeepSeek-Coder-V2-Lite-Instruct模型教程

    [大模型教程] DeepSeek-Coder-V2-Lite-Instruct模型教程

    2025-10-28

    DeepSeek-Coder-V2-Lite-Instruct是由深度求索(DeepSeek)公司开发并于2024年发布的一款高效开源代码大模型。该模型采用创新的混合专家架构,虽然总参数量为160亿,但每次推理仅激活24亿参数,大幅提升了计算效率并降低了资源消耗。其主要特性包括:支持高达128K的上下文长度,能够处理复杂的代码库和长文档;在代码生成基准测试HumanEval中取得了81.1%的高通过率,性能可与一些700亿参数级别的模型相媲美;同时支持多达338种编程语言,为开发者提供了一个强大且高效的AI编程助手。

  • DeepSeek-7B模型教程

    [大模型教程] DeepSeek-7B模型教程

    2025-10-28

    DeepSpeek-7B 由70亿个参数组成的高级语言模型 DeepSeek LLM。它是在一个包含2万亿个英文和中文代币的庞大数据集上从零开始训练的。为了促进研究,DeepSeek 已经为研究社区开放了DeepSeek LLM 7B/67B Base 和 DeepSeek LLM 7B/67B Chat。

  • Qwen2.5-7B-Instruct模型教程

    [大模型教程] Qwen2.5-7B-Instruct模型教程

    2025-10-28

    Qwen2.5-7B-Instruct是由阿里云开发并开源的大语言模型。根据搜索结果,该模型的一个基准版本可能于2024年10月左右发布,而其后缀为"-1M"的长文本增强版本则于2025年1月推出。这款模型拥有70亿参数,是通义千问Qwen2.5系列中的重要一员。它的主要特性包括:强大的性能表现:在知识(MMLU)、编程(HumanEval)和数学(MATH)等多项权威评测中均取得了高分,显示出全面的能力。出色的指令遵循与文本生成:能够更好地理解并执行复杂指令,支持生成超过8K tokens的长文本。在理解和生成JSON、表格等结构化数据方面表现优异。超长上下文处理:标准版本支持128K tokens的上下文长度。其专门的Qwen2.5-7B-Instruct-1M版本更是将上下文处理能力扩展至惊人的100万tokens,能够处理极长的文档广泛的多语言支持:覆盖中文、英文、法文、日文等29种以上的语言。开源与高效部署:模型采用Apache 2.0许可证开源,并针对云平台和消费级硬件进行了优化,便于开发者部署与微调。

  • Qwen3模型教程

    [大模型教程] Qwen3模型教程

    2025-10-28

    Qwen3是由阿里巴巴公司旗下的通义千问团队在2025年4月29日正式发布的新一代开源大语言模型系列。该模型家族以其创新的混合推理架构、强大的多语言能力和灵活的开源策略,旨在为全球开发者提供高性能的AI工具。Qwen3系列模型在数学推理、代码生成、工具调用及多语言任务方面的能力相比前代有了显著提升,并在多项业界基准测试中取得了顶尖成绩。所有模型均在Apache 2.0许可下开源,全球开发者可通过魔搭社区、Hugging Face等平台免费下载并使用。

更多