[CHI 2025] AppAgent

(* 同等贡献, † 项目负责人, ✦ 通讯作者)

ℹ️ 🔥🔥🔥 AppAgentX 现已发布，这是具备演进机制的下一代 GUI Agent。

ℹ️ 如果在使用过程中遇到任何问题⚠️，欢迎在 GitHub Issues 提交反馈，或通过电子邮件联系 Dr. Chi Zhang：dr.zhang.chi@outlook.com。

ℹ️ 本项目将在官方 TencentQQGYLab GitHub 页面同步更新。

📝 更新日志

[2025.3.5]: 🔥🔥🔥 发布 AppAgentX，这是一款具备演进机制的下一代 GUI Agent。
[2024.2.8]: 增加了 qwen-vl-max（通义千问-VL）作为多模态模型的可选方案。该模型目前免费使用，但性能较 GPT-4V 略逊一筹。
[2024.1.31]: 发布了 AppAgent 测试期间使用的评估基准 (evaluation benchmark)。
[2024.1.2]: 增加了一个可选方法，允许 Agent 在屏幕上调出网格叠加层，以便在屏幕上的任意位置点击/滑动。
[2023.12.26]: 增加了使用提示 (Tips) 部分以提升使用体验；添加了针对没有 Android 设备的用户使用 Android Studio 模拟器 的操作指南。
[2023.12.21]: 开源项目仓库，包含实现 AppAgent 的详细配置步骤！

我们推出了一种全新的基于 LLM 的多模态 Agent 框架，旨在操作智能手机应用程序。

我们的框架使 Agent 能够通过简化的动作空间来操作手机 App，模仿人类的交互方式，如点击和滑动。这种创新的方法无需访问系统后端，从而扩大了其在各种应用程序中的适用性。

该 Agent 的核心功能在于其创新的学习方法。Agent 通过自主探索或观察人类演示来学习如何导航和使用新应用。这一过程生成的知识库可供 Agent 参考，以便在不同的应用程序中执行复杂的任务。

演示视频展示了在部署阶段使用 AppAgent 在 X (Twitter) 上关注用户的过程。

一个有趣的实验，展示了 AppAgent 通过验证码（CAPTCHA）的能力。

使用网格叠加层定位未贴有数字标签的 UI 元素的示例。

本节将指导你如何快速使用 gpt-4-vision-preview（或 qwen-vl-max）作为 Agent，在 Android 应用上为你完成特定任务。

在 PC 上下载并安装 Android Debug Bridge (adb)，这是一个命令行工具，用于从 PC 与 Android 设备进行通信。
准备一台 Android 设备，并在“设置”的“开发者选项”中启用 USB 调试。
使用 USB 数据线将设备连接到 PC。
（可选）如果你没有 Android 设备但仍想尝试 AppAgent，建议下载 Android Studio 并使用其中的模拟器。模拟器可以在 Android Studio 的设备管理器中找到。你可以通过从互联网下载 APK 文件并将其拖入模拟器来安装应用。AppAgent 可以检测到模拟设备，并像操作真实设备一样操作其中的应用。
克隆此仓库并安装依赖项。本项目中的所有脚本均使用 Python 3 编写，请确保已安装 Python。

cd AppAgent
pip install -r requirements.txt

AppAgent 需要由能够接收文本和视觉输入的多模态模型驱动。在我们的实验中，我们使用 gpt-4-vision-preview 作为模型，根据屏幕图像决定如何采取行动以完成手机上的任务。

要配置对 GPT-4V 的请求，你需要修改 conf