深度元素科技（北京）有限公司

大模型专栏

记录和追踪AI行业大模型最新技术进展和趋势分析报告。洞察AI应用和技术发展走向，如大模型创意和创新AI应用、训练、微调、多模态融合发展，及在众多行业垂直领域中的实践探索，帮助深入了解大模型发展相关的技术和产品进化脉络，助力把AI时代握发展机遇。

[热点论文] EdgeRunner 20B：在边缘设备......

2025-11-01

这篇论文试图解决什么问题？论文旨在证明：在军事这一高敏感、高可靠性需求的垂直场景里，参数规模仅 2......
[热点论文] 自主智能体住宅能源管理系统：基于大语言模......

2025-11-01

这篇论文试图解决什么问题？论文旨在破解“家庭能源管理系统（HEMS）普及受阻”这一核心障碍。具体而......
[热点论文] 大语言模型中的规范性推理：从逻辑与模态视......

2025-11-01

Q1: 这篇论文试图解决什么问题？论文旨在系统评估大语言模型（LLM）在规范性推理（normativ......
[热点论文] 智能体组织的新时代：与语言模型一起学习组......

2025-11-01

这篇论文试图解决什么问题？论文旨在解决“如何令多个大语言模型智能体以并发且协作的方式完成复杂推理”这......

[大模型教程] Atom-7B-chat模型教程

2025-10-28

Atom-7B-Chat是由Llama中文社区和原子回声（AtomEcho）联合研发的一款开源中文对话大模型。它基于Meta的Llama2-7B架构，并针对中文场景进行了深度优化。以下是其主要特性：卓越的中文理解与生成：模型在Llama2的基础上，采用了超过1T token的高质量中文数据进行持续预训练。数据涵盖百科、新闻、小说、法律、医疗、代码等多个领域，并针对中文词表进行了优化，使中文编码/解码速度提升了约350%。强大的对话与上下文处理能力：作为对话模型（Chat），它能够流畅地进行多轮对话。模型默认支持4K上下文长度，并可通过技术扩展至更长，更好地处理长文本对话、问答与摘要等任务。高效的开源模型：它采用了FlashAttention-2技术进行训练，具有更快的速度和更优化的内存占用。模型完全开源且支持商用，其轻量化设计也便于在消费级显卡上部署和使用。
[大模型教程] DeepSeek-Coder-V2-Lite-Instruct模型教程

2025-10-28

DeepSeek-Coder-V2-Lite-Instruct是由深度求索（DeepSeek）公司开发并于2024年发布的一款高效开源代码大模型。该模型采用创新的混合专家架构，虽然总参数量为160亿，但每次推理仅激活24亿参数，大幅提升了计算效率并降低了资源消耗。其主要特性包括：支持高达128K的上下文长度，能够处理复杂的代码库和长文档；在代码生成基准测试HumanEval中取得了81.1%的高通过率，性能可与一些700亿参数级别的模型相媲美；同时支持多达338种编程语言，为开发者提供了一个强大且高效的AI编程助手。
[大模型教程] DeepSeek-7B模型教程

2025-10-28

DeepSpeek-7B 由70亿个参数组成的高级语言模型 DeepSeek LLM。它是在一个包含2万亿个英文和中文代币的庞大数据集上从零开始训练的。为了促进研究，DeepSeek 已经为研究社区开放了DeepSeek LLM 7B/67B Base 和 DeepSeek LLM 7B/67B Chat。
[大模型教程] Qwen2.5-7B-Instruct模型教程

2025-10-28

Qwen2.5-7B-Instruct是由阿里云开发并开源的大语言模型。根据搜索结果，该模型的一个基准版本可能于2024年10月左右发布，而其后缀为"-1M"的长文本增强版本则于2025年1月推出。这款模型拥有70亿参数，是通义千问Qwen2.5系列中的重要一员。它的主要特性包括：强大的性能表现：在知识（MMLU）、编程（HumanEval）和数学（MATH）等多项权威评测中均取得了高分，显示出全面的能力。出色的指令遵循与文本生成：能够更好地理解并执行复杂指令，支持生成超过8K tokens的长文本。在理解和生成JSON、表格等结构化数据方面表现优异。超长上下文处理：标准版本支持128K tokens的上下文长度。其专门的Qwen2.5-7B-Instruct-1M版本更是将上下文处理能力扩展至惊人的100万tokens，能够处理极长的文档广泛的多语言支持：覆盖中文、英文、法文、日文等29种以上的语言。开源与高效部署：模型采用Apache 2.0许可证开源，并针对云平台和消费级硬件进行了优化，便于开发者部署与微调。
[大模型教程] Qwen3模型教程

2025-10-28

Qwen3是由阿里巴巴公司旗下的通义千问团队在2025年4月29日正式发布的新一代开源大语言模型系列。该模型家族以其创新的混合推理架构、强大的多语言能力和灵活的开源策略，旨在为全球开发者提供高性能的AI工具。Qwen3系列模型在数学推理、代码生成、工具调用及多语言任务方面的能力相比前代有了显著提升，并在多项业界基准测试中取得了顶尖成绩。所有模型均在Apache 2.0许可下开源，全球开发者可通过魔搭社区、Hugging Face等平台免费下载并使用。