华东师范大学推出PyraMathBench基准及SOLVE、IRPO模块,显著提升LLMs数学推理能力。苏州大学提出HDPO方法,通过提示引导多样化策略优化,增强LLM推理与方案多样性
来源:
|
作者:DE.Tech
|
发布时间: 2026-06-06
|
15 次浏览
|
🔊 点击朗读正文
❚❚
▶
|
分享到:
华东师范大学团队推出PyraMathBench基准,包含32,505个分层数学问题,并开发了SOLVE和IRPO模块; 苏州大学计算机科学与技术学院团队提出提示引导多样化策略优化(HDPO),解决了LLMs在RLVR框架下奖励机制单一的问题。
🏛️ 机构动态
•
East China Normal University:《PyraMathBench: Evaluating and Improving Mathematical Capability in Large Language Models》
Math Capability 华东师范大学团队推出PyraMathBench基准,包含32,505个分层数学问题,并开发了SOLVE和IRPO模块。实验显示,该方法使Qwen-2.5在基准测试中得分提升5.0分,显著增强了LLMs的数值处理与数学推理能力,为模型评估与优化提供了新工具。
链接来源: arXiv👍👎•
School of Computer Science and Technology, Soochow University, Suzhou:《Hint-Guided Diversified Policy Optimization for LLM Reasoning》
HDPO Reasoning 苏州大学计算机科学与技术学院团队提出提示引导多样化策略优化(HDPO),解决了LLMs在RLVR框架下奖励机制单一的问题。该方法通过让模型先列出候选方案轮廓再选择可靠方案,有效提升了推理能力和候选解决方案的多样性,显著增强了模型识别可靠解决方案的能力。
链接来源: arXiv👍👎
