MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering
MLE-bench 是一个专门用于评估 AI Agent 在机器学习工程任务中表现的基准测试框架。该项目通过提供标准化的数据集、评估逻辑以及多种已评估的智能体案例,旨在客观衡量 AI 在处理机器学习实际工程问题时的能力与效率。
提供了涵盖轻量级到复杂程度各异的机器学习工程任务数据集。 集成了标准化的评估流程与自动化评分机制以确保结果的客观性。 建立了详细的排行榜以对比不同模型与智能体方案的实际性能表现。 公开了用于基准测试的源代码及相关的评分报告供学术研究与复现。
适用于从事 AI Agent 开发、机器学习工程研究以及需要量化评估大模型编程能力的科研人员和开发者。该项目特别适合用于构建或调优能够独立完成从模型训练到任务部署等完整 ML 工程流程的智能体系统。