microsoft/WindowsAgentArena

Windows Agent Arena (WAA) 🪟 is a scalable OS platform for testing and benchmarking of multi-modal AI agents.

agenticaiai-agentai-benchmarkai-researchcomputercomputer-usedesktop-agentwindows

GAI 中文摘要

Windows Agent Arena 是一个专为测试和基准评估多模态桌面 AI 智能体而设计的可扩展 Windows 操作系统平台。该项目旨在为研究人员和开发者提供一个高度可复现且逼真的 Windows 环境，用于验证 AI 智能体在处理各类桌面任务时的实际效能。

支持基于 Azure ML 云基础设施的大规模智能体部署，实现多任务并行处理以大幅缩短评估周期。提供包含多种难度等级的任务库，涵盖从基础操作到复杂流程的多种应用场景。内置多种实验模式，支持自定义环境设置，以满足不同研究需求下的智能体行为测试。提供完善的基准测试流水线，能够快速输出标准化评估结果，验证智能体在真实操作系统中的交互能力。

适用于 AI 研究员、桌面智能体开发者以及致力于提升 AI 自动化办公能力的科研团队，常用于对比不同模型在复杂桌面场景下的理解、决策与执行水平。

⭐

846

Stars

🔱

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2024/7/29更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Windows Agent Arena (WAA) 🪟 是一个可扩展的 Windows AI 智能体平台，用于测试和基准测试多模态桌面 AI 智能体。WAA 为研究人员和开发人员提供了一个可复现且逼真的 Windows OS 环境，用于 AI 研究，并支持在多种任务中测试智能体工作流。

WAA 支持使用 Azure ML 云基础设施大规模部署智能体，允许并行运行多个智能体，并在几分钟内（而非几天）提供数百个任务的基准测试结果。

📢 更新日志

2024-11-10：我们为 Windows Agent Arena 添加了新的难度模式！您可以通过修改 src/win-arena-container/start_client.sh 中的默认参数 diff_lvl="normal" 为 diff_lvl="hard" 来尝试新的高难度模式。在更难的难度下，许多任务要求智能体自行学习初始化或设置任务（例如，为任务寻找并打开合适的程序/应用），而不是由任务配置直接为您“设置”好。
2024-10-30：我们发布了搭载 Omniparser 的 Navi 智能体代码！如需运行论文中性能最好的模式，请执行：./run-local.sh --som-origin mixed-omni --gpu-enabled true
2024-10-23：微软开源了 Omniparser，这是目前我们基准测试中性能最好的屏幕理解模型。
2024-09-13：我们发布了论文、代码、项目主页和博客文章。欢迎查看！

📚 引用

我们的技术报告论文可以在这里找到。如果您发现此环境对您有所帮助，请考虑引用我们的工作：

@article{bonatti2024windows,
author = { Bonatti, Rogerio and Zhao, Dan and Bonacci, Francesco and Dupont, Dillon, and Abdali, Sara and Li, Yinheng and Wagle, Justin and Koishida, Kazuhito and Bucker, Arthur and Jang, Lawrence and Hui, Zack},
title = {Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale},
institution = {Microsoft},
year = {2024},
month = {September}, 
}

☝️ 前置需求

已安装并运行 Docker 守护进程。在 Windows 上，我们建议使用 Docker with WSL 2。
一个 OpenAI 或 Azure OpenAI API Key。
Python 3.9 - 我们建议使用 Conda 并创建一个专门的 Python 环境来运行脚本。创建新环境请运行 conda create -n winarena python=3.9。

克隆仓库并安装依赖：

git clone https://github.com/microsoft/WindowsAgentArena.git
cd WindowsAgentArena
# 在您的 python 环境中安装所需的依赖
# conda activate winarena
pip install -r requirements.txt

💻 本地部署 (WSL 或 Linux)

1. 配置文件

在项目根目录下创建一个新的 config.json，并填入必要的密钥（来自 OpenAI 或 Azure 端点）：

{
    "OPENAI_API_KEY": "", // 如果您使用 OpenAI 端点
    "AZURE_API_KEY": "",  // 如果您使用 Azure 端点
    "AZURE_ENDPOINT": "https://yourendpoint.openai.azure.com/", // 如果您使用 Azure 端点
}

2. 准备 Windows Arena Docker 镜像

2.1 从 Docker Hub 拉取 WinArena-Base 镜像

首先，从 Docker Hub 拉取基础镜像：

docker pull windowsarena/winarena-base:latest

该镜像包含了所有必要的组件。