Code repo for "WebArena: A Realistic Web Environment for Building Autonomous Agents"
WebArena 是一个为构建和测试自主智能体而设计的独立、可自托管的真实 Web 环境。该项目致力于解决通用智能体在复杂网页操作任务中缺乏标准化评估平台的问题,提供了一个高度仿真的 Web 交互沙箱。
提供涵盖电子商务、论坛、内容管理系统及地图等多种真实网站的模拟环境。支持对智能体执行任务的过程进行详细记录与轨迹回放。内置了丰富的人类标注轨迹数据,辅助开发者理解并优化智能体的决策逻辑。通过模块化的架构设计,方便用户评估和对比不同自主智能体在 Web 导航任务中的性能。
该项目适用于从事自主智能体研究、大语言模型 Web 代理开发以及自动化测试工具构建的研究人员与开发者,主要用于评估智能体在复杂真实 Web 环境下的任务规划与执行能力。