🌟 今日前沿论文 · 2025年1月3日

精选科技前沿资讯，洞察科技研究趋势

🔥🔥🔥🔥🔥 智能代理

面向机器学习工程的社区驱动智能代理

#社区驱动 #机器学习代理 #集体智能 #Kaggle竞赛 #协作AI

原文标题：Towards Community-Driven Agents for Machine Learning Engineering

作者：Sijie Li, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang

原文摘要：Large language model-based machine learning (ML) agents have shown great promise in automating ML research. However, existing agents typically operate in isolation on a given research problem, without engaging with the broader research community, where human researchers often gain insights and contribute by sharing knowledge. To bridge this gap, we introduce MLE-Live, a live evaluation framework designed to assess an agent's ability to communicate with and leverage collective knowledge from a simulated Kaggle research community. Building on this framework, we propose CoMind, a novel agent that excels at exchanging insights and developing novel solutions within a community context. CoMind achieves state-of-the-art performance on MLE-Live and outperforms 79.2% human competitors on average across four ongoing Kaggle competitions. Our code is released at https://github.com/comind-ml/CoMind.

中文翻译：基于大型语言模型的机器学习（ML）代理在自动化机器学习研究方面显示出巨大的潜力。然而，现有的代理通常在给定研究问题上孤立运行，没有与更广泛的研究社区进行互动，而人类研究者往往通过分享知识来获得见解和做出贡献。为了弥合这一差距，我们引入了MLE-Live，这是一个实时评估框架，旨在评估代理与模拟Kaggle研究社区进行沟通和利用集体知识的能力。基于这一框架，我们提出了CoMind，这是一种新颖的代理，擅长在社区环境中交换见解和开发新颖的解决方案。CoMind在MLE-Live上实现了最先进的性能，在四个正在进行的Kaggle竞赛中平均超越了79.2%的人类竞争者。我们的代码已在https://github.com/comind-ml/CoMind发布。

智能问答：
Q: 这篇论文试图解决什么问题？
A: 这篇论文试图解决如何评估和设计能够利用集体知识的研究代理（research agents）的问题。具体来说，它关注的是基于大型语言模型（LLM）的机器学习（ML）代理在自动化机器学习研究中的应用。现有的代理通常在孤立的环境中运行，仅依赖内部记忆和试错探索，而忽略了现实世界科学研究中至关重要的社区知识共享。这种社区知识共享在真实的数据科学竞赛和研究流程中非常常见，例如在Kaggle竞赛中，参与者经常通过公共讨论、共享笔记本和社区见解来学习和贡献，从而显著提升解决方案的质量和创新性。因此，论文的核心问题是：如何设计和评估能够利用集体知识的研究代理，以弥补现有代理在社区互动和知识共享方面的不足。

Q: 有哪些相关研究？
A: 论文中提到了多个与之相关的研究领域和具体工作，以下是主要的相关研究分类和具体内容：大型语言模型（LLM）驱动的代理研究方面，早期框架例如ReAct（Yao et al., 2023），通过将自然语言推理与工具使用行动相结合，将LLM转变为可编程的推理引擎；领域扩展研究将这些代理扩展到不同领域，如计算机使用（Xie et al., 2024）和软件开发（Wang et al., 2025）。自动化机器学习（AutoML）方面，早期系统如Auto-WEKA（Thornton et al., 2013）、HyperBand（Li et al., 2018）和Auto-sklearn（Feurer et al., 2022），主要通过早期停止和贝叶斯优化来搜索管道配置；神经架构自动化方面，DARTS（Liu et al., 2019）将自动化扩展到神经架构搜索；现代框架如AutoGluon（Erickson et al., 2020）和FLAML（Wang et al., 2021）强调效率和易用性。LLM在机器学习工程（MLE）中的应用方面，现有工作包括近期的研究开始将LLM应用于机器学习工程任务，但这些研究大多在封闭世界设置中评估代理，缺乏对开放性或协作性ML环境的洞察。

Q: 论文如何解决这个问题？
A: 论文通过以下两个主要贡献来解决如何评估和设计能够利用集体知识的研究代理的问题：1. MLE-Live框架。MLE-Live是一个模拟Kaggle研究社区的实时评估框架，用于评估代理在社区环境中利用集体知识的能力。具体方法包括：模拟社区环境，包括共享讨论和公共代码片段，这些资源反映了人类参与者在竞赛中会自然参考的辅助资源；时间戳资源，每个竞赛都包括时间戳标记的公共讨论和共享代码，确保了对集体智能的实时利用；评估指标支持离线评估和在线评估，全面评估代理在静态和动态场景中的表现；资源选择为了确保资源的可用性并防止提示膨胀，精心筛选了非文本内容、Jupyter系统输出等；元数据和质量信号，每个资源都增加了关键元数据，如投票数、公共分数和作者等级，以帮助代理和评估者优先考虑相关和高质量的内容。2. CoMind代理。CoMind是一个基于LLM的新型代理，专门设计用于在社区环境中自动化机器学习工程。其工作原理包括：迭代工作流程，通过四个阶段的迭代循环工作：想法选择、想法生成、实施与改进、报告生成；想法池和报告池，维护两个中心存储库，支持代理内部记忆和多代理部署中的代理间通信；多代理协作，多个代理在相同任务上并行工作，共享社区知识库；动态关注，在实施和改进阶段，动态关注一个解决方案草稿；创新性，在生成解决方案草稿时，通过重新组合或扩展选定的想法来合成新策略。

Q: 论文做了哪些实验？
A: 论文中进行了以下几类实验，以全面评估所提出的CoMind代理在机器学习工程任务中的性能和能力：1. 离线评估实验。实验目的是在过去的Kaggle竞赛数据上评估CoMind的性能，与现有方法进行比较。实验设置使用MLE-Live框架，涵盖了20个过去的Kaggle竞赛，涉及7个不同的领域；所有代理在相同的硬件限制下运行；评估指标包括有效提交、胜过中位数、胜率、奖牌和代码长度；基线方法包括AIDE、AIDE+Code、AIDE+RAG。2. 在线评估实验。实验目的是在正在进行的Kaggle竞赛中评估CoMind的性能，验证其在实时、动态环境中的实际应用能力。实验设置选择了四个正在进行的Kaggle竞赛；CoMind生成的submission.csv文件直接提交到Kaggle平台；评估指标包括排行榜位置和胜率。3. 消融研究。实验目的是评估公共资源（讨论和代码片段）对CoMind性能的影响。实验设置对比了两种配置：CoMind w/ R（有公共资源）和CoMind w/o R（无公共资源）；评估指标包括有效提交率和胜率。4. 想法新颖性评估。实验目的是确保CoMind不仅复制现有方法，还能提出真正新颖的想法。实验设置排除了来自公共代码库的想法后，由领域专家小组对CoMind和基线方法生成的解决方案进行手动评估；评估指标为新颖性排名。

Q: 有什么可以进一步探索的点？
A: 论文在提出MLE-Live框架和CoMind代理的同时，也指出了当前研究的局限性，并提出了未来可以进一步探索的方向：1. 扩展代理的交互能力。当前局限性是目前CoMind仅支持报告级别的交互，无法进行更细致的互动；潜在探索方向包括增强交互能力，扩展代理的行动空间，使其能够进行评论、提问、分享数据集和模型等操作，以及多模态交互，探索代理在多模态环境中的交互能力。2. 应用到更广泛的领域。当前局限性是这些任务主要集中在数据科学和机器学习领域；潜在探索方向包括跨领域应用，将MLE-Live框架扩展到其他领域，如科学发现、开放性编程或机器人技术，以及领域特定的代理设计。3. 提高代理的自主性和适应性。当前局限性是其性能可能受到预定义任务和资源的限制；潜在探索方向包括动态任务适应，开发能够动态适应新任务和资源变化的代理，以及长期学习和记忆，探索代理的长期学习和记忆能力。4. 评估代理的社会影响。当前局限性是这些影响尚未得到充分评估；潜在探索方向包括社会影响评估和伦理和政策制定。5. 提高代理的可解释性和透明度。6. 优化代理的性能和效率。

Q: 总结一下论文的主要内容
A: 论文《Towards Community-Driven Agents for Machine Learning Engineering》由Sijie Li、Weiwei Sun、Shanda Li、Ameet Talwalkar和Yiming Yang共同撰写，旨在解决如何评估和设计能够利用集体知识的研究代理的问题。研究背景是LLM代理的潜力在于自动化复杂推理和决策任务方面表现出色，但在机器学习工程领域，现有代理通常在孤立环境中运行，忽略了社区知识共享；社区知识共享的重要性体现在真实的数据科学竞赛和研究流程中。研究问题的核心是如何评估和设计能够利用集体知识的研究代理。MLE-Live框架模拟社区环境，是一个模拟Kaggle研究社区的实时评估框架；包含时间戳资源，确保了对集体智能的实时利用；具有多种评估指标；精心选择资源和元数据。CoMind代理采用迭代工作流程，通过四个阶段的迭代循环工作；维护想法池和报告池两个中心存储库；支持多代理协作；具有动态关注能力和创新性。实验验证包括离线评估、在线评估、消融研究和想法新颖性评估等，结果表明CoMind表现出色。结论是论文通过MLE-Live框架和CoMind代理，提供了评估代理在社区环境中利用集体知识能力的平台，展示了有效利用集体知识进行机器学习工程的代理设计方法。未来工作包括扩展代理的交互能力、应用到更广泛的领域等多个方向。

Q: 想要进一步了解论文
A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。阅读全文 →

📱 科技改变生活，资讯连接未来

更新时间：2025年1月3日 | 数据来源：权威论文站点

更多

注：数据公开发布，版权出版方所有，不构成任何投资建议

返回