Mario Sanz-Guerrero团队研究发现,指令微调会损害大型语言模型的校准能力
来源:
|
作者:DE.Tech
|
发布时间: 2026-06-06
|
12 次浏览
|
🔊 点击朗读正文
❚❚
▶
|
分享到:
Mario Sanz-Guerrero团队研究发现,指令微调损害了大型语言模型的校准能力,聊天模板通过“所有权偏差”进一步加剧问题; 加州大学圣地亚哥分校团队提出ACTS方法,将推理引导形式化为马尔可夫决策过程,通过控制器代理自适应引导冻结推理器。
🧑🔬 学者动态
•
Mario Sanz-Guerrero(Johannes Gutenberg University Mainz, Germany):《Large Language Models Are Overconfident in Their Own Responses》
LLM Calibration Mario Sanz-Guerrero团队研究发现,指令微调损害了大型语言模型的校准能力,聊天模板通过“所有权偏差”进一步加剧问题。实验显示,模型对自身答案的置信度比用户提供的相同答案最高高出26%,这一发现为提升LLM的可靠性提供了关键方向。
链接来源: arXiv👍👎•
Julian McAuley(University of California San Diego):《Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning》
Agentic Chain-of-Thought Steering 加州大学圣地亚哥分校团队提出ACTS方法,将推理引导形式化为马尔可夫决策过程,通过控制器代理自适应引导冻结推理器。该方法在多个基准测试中显著节省标记符,同时保持完整思考性能,实现准确性与效率的灵活权衡,有效解决了LLM推理效率与可控性问题。
链接来源: arXiv👍👎
