小型语言模型在控制自主代理中的性能优势

来源: | 作者:DE.Tech | 发布时间: 2026-06-06 | 156 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

根据经济视角下的推理预算分配问题，腾讯HY团队提出CLEAR方法，将大语言模型推理的预算分配建模为全局约束优化问题，通过影子价格策略显著提升资源利用率。实验表明，该方法在资源稀缺环境下实现了准确率提升3倍，并优化了总令牌成本与平均准确率之间的帕累托前沿。与此同时，香港科技大学团队提出JF-HPO方法，通过联合调整模型大小和训练预算，在强化学习中大幅提升超参数优化效率，计算效率提高达14.9倍，性能较VeRL Recipe提升5.8%以上。该方法采用小代理模型与早期停止策略，在相同时间预算下实现了更高精度。此外，Kunpeng Liu团队提出RAFG方法，通过检索增强特征生成结合大语言模型推理与反事实验证，解决了数据有限场景下的特征提取难题，在医学和经济等领域的分类任务中提升了性能和特征可解释性。最后，一篇论文提出了评估框架，验证了小型语言模型在控制自主代理任务中的有效性，并引入BiPaNS指标。实验显示，尽管小型模型参数规模小，但在六个OpenAI Gym环境中表现优于大型模型，为低成本智能体控制提供了新思路。

📄 核心论文

• The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs： Budget Optimization Tencent HY团队提出CLEAR方法，将LLM推理预算分配建模为全局约束优化问题，通过影子价格策略提升资源利用率。实验显示，该方法在资源稀缺环境下实现3倍准确率提升，显著优化总令牌成本与平均准确率的帕累托前沿。链接来源: arXiv👍👎
• Efficient Hyperparameter Optimization for LLM Reinforcement Learning： Hyperparameter Optimization 香港科技大学团队提出JF-HPO方法，通过联合调整模型大小和训练预算，显著提升LLM强化学习中超参数优化效率，计算效率提高高达14.9倍，性能较VeRL Recipe提升5.8%至显著水平。该方法采用小代理模型和早期停止策略，在相同时间预算下实现更高精度。链接来源: arXiv👍👎
• Reliable Retrieval-Augmented Feature Generation with Large Language Model Reasoning： Retrieval-Augmented Feature Generation Kunpeng Liu团队提出RAFG方法，通过检索增强特征生成解决数据有限下的特征提取难题。该方法结合LLM推理与反事实验证，在医学、经济等领域数据集上显著提升分类性能，生成高质量可解释特征。链接来源: Knowledge and Information Systems👍👎
• Tiny is Mighty Enough: Evaluating Tiny and Large Language Models for Controlling Autonomous Agents： Tiny Language Models 论文提出评估框架，验证小型语言模型（TLMs）在控制自主代理中的性能，引入BiPaNS指标。实验表明，尽管TLMs参数规模小，但在六个OpenAI Gym环境中性能优于大型模型，为低成本智能体控制提供新思路。链接来源: 2026 IEEE Conference on Artificial Intelligence (CAI)👍👎