MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering
mle-bench 是一个专门用于评估人工智能代理在机器学习工程领域表现的基准测试框架。该项目通过量化测试,帮助开发者准确衡量 AI 代理在处理机器学习任务时的实际技术能力与工程水平。
提供了一套标准化且系统的数据集构建流程,确保评估内容的全面性与专业性。内置完整的评估逻辑,能够精准量化 AI 代理执行机器学习工程任务的效果。整合并开源了多种经过测试的 AI 代理案例,方便研究人员进行横向对比分析。提供详细的评分报告,助力用户深入理解不同模型与 Agent 在工程实践中的表现差异。
适用于机器学习研究人员、AI Agent 开发者以及关注大模型工程能力的评估测试团队。该项目主要用于在复杂机器学习任务环境中验证 Agent 的自动化执行能力、问题解决能力及代码实现水平。