华东师范大学推出PyraMathBench基准及SOLVE、IRPO模块，显著提升LLMs数学推理能力。苏州大学提出HDPO方法，通过提示引导多样化策略优化，增强LLM推理与方案多样性

来源: | 作者:DE.Tech | 发布时间: 2026-06-06 | 150 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

华东师范大学团队推出PyraMathBench基准，包含32，505个分层数学问题，并开发了SOLVE和IRPO模块; 苏州大学计算机科学与技术学院团队提出提示引导多样化策略优化（HDPO），解决了LLMs在RLVR框架下奖励机制单一的问题。

🏛️ 机构动态

• East China Normal University：《PyraMathBench: Evaluating and Improving Mathematical Capability in Large Language Models》 Math Capability 华东师范大学团队推出PyraMathBench基准，包含32，505个分层数学问题，并开发了SOLVE和IRPO模块。实验显示，该方法使Qwen-2.5在基准测试中得分提升5.0分，显著增强了LLMs的数值处理与数学推理能力，为模型评估与优化提供了新工具。链接来源: arXiv👍👎
• School of Computer Science and Technology, Soochow University, Suzhou：《Hint-Guided Diversified Policy Optimization for LLM Reasoning》 HDPO Reasoning 苏州大学计算机科学与技术学院团队提出提示引导多样化策略优化（HDPO），解决了LLMs在RLVR框架下奖励机制单一的问题。该方法通过让模型先列出候选方案轮廓再选择可靠方案，有效提升了推理能力和候选解决方案的多样性，显著增强了模型识别可靠解决方案的能力。链接来源: arXiv👍👎