© 2026FindAgent  · @simprr
返回列表
T

TencentQQGYLab/AppAgent

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.

agentchatgptgenerative-aigpt4gpt4vllm
⭐

6.6k

Stars

🔱

734

Forks

👁

73

Watchers

📋

95

Issues

PythonMIT创建于 2023/12/20更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

[CHI 2025] AppAgent

                       

Chi Zhang*†, Zhao Yang*, Jiaxuan Liu*, Yucheng Han, Xin Chen, Zebiao Huang,

Bin Fu, Gang Yu✦

(* 同等贡献,† 项目负责人,✦ 通讯作者 )

ℹ️ 🔥🔥🔥 AppAgentX 现已发布,这是具备进化机制的下一代 GUI Agent。

ℹ️ 如果在使用过程中遇到任何问题⚠️,请随时通过 GitHub Issues 反馈,或通过电子邮件联系 Chi Zhang 博士:dr.zhang.chi@outlook.com。

ℹ️ 本项目将在官方 TencentQQGYLab GitHub 页面同步更新。

📝 更新日志

  • [2025.3.5]: 🔥🔥🔥 发布 AppAgentX,这是具备进化机制的下一代 GUI Agent。
  • [2024.2.8]: 添加 qwen-vl-max (通义千问-VL) 作为多模态模型选项。该模型目前可免费使用,但与 GPT-4V 相比性能略逊一筹。
  • [2024.1.31]: 发布了 AppAgent 测试期间使用的 评估基准 (evaluation benchmark)。
  • [2024.1.2]: 添加了一种可选方法,允许 Agent 在屏幕上调出网格覆盖层,从而实现屏幕上任意位置的点击/滑动。
  • [2023.12.26]: 添加 提示 (Tips) 部分以提升使用体验;为没有 Android 设备的用户添加了使用 Android Studio 模拟器的指南。
  • [2023.12.21]: 开源 Git 仓库,包含实现 AppAgent 的详细配置步骤!

🔆 简介

我们推出了一种基于 LLM 的新型多模态 Agent 框架,旨在操作智能手机应用程序。

我们的框架通过简化的动作空间使 Agent 能够像人类一样操作智能手机应用,例如点击和滑动。这种新颖的方法无需系统后端访问权限,从而扩大了其在各种应用程序中的适用范围。

该 Agent 功能的核心在于其创新的学习方法。Agent 通过自主探索或观察人类演示来学习导航和使用新应用。这一过程生成了一个知识库,Agent 可据此在不同应用中执行复杂任务。

✨ 演示

演示视频展示了在部署阶段使用 AppAgent 在 X (Twitter) 上关注用户的过程。

https://github.com/mnotgod96/AppAgent/assets/40715314/db99d650-dec1-4531-b4b2-e085bfcadfb7

一个有趣的实验,展示了 AppAgent 通过验证码 (CAPTCHA) 的能力。

https://github.com/mnotgod96/AppAgent/assets/27103154/5cc7ba50-dbab-42a0-a411-a9a862482548

使用网格覆盖层定位未标注数字标签的 UI 元素的示例。

https://github.com/mnotgod96/AppAgent/assets/27103154/71603333-274c-46ed-8381-2f9a34cdfc53

🚀 快速开始

本节将指导您如何快速使用 gpt-4-vision-preview(或 qwen-vl-max)作为 Agent,在 Android 应用上为您完成特定任务。

⚙️ 第 1 步:先决条件

  1. 在您的 PC 上下载并安装 Android Debug Bridge (adb),这是一个允许您从 PC 与 Android 设备通信的命令行工具。

  2. 准备一台 Android 设备,并在“设置”的“开发者选项”中启用“USB 调试”。

  3. 使用 USB 数据线将您的设备连接到 PC。

  4. (可选)如果您没有 Android 设备但想尝试 AppAgent,我们建议下载 Android Studio 并使用其中的模拟器。您可以在 Android Studio 的设备管理器中找到模拟器。您可以通过从互联网下载 APK 文件并将其拖动到模拟器中来安装应用程序。AppAgent 可以检测到模拟设备,并像操作真实设备一样操作其中的应用程序。

  5. 克隆此仓库并安装依赖项。本项目中的所有脚本均使用 Python 3 编写,请确保已安装。

cd AppAgent
pip install -r requirements.txt

🤖 第 2 步:配置 Agent

AppAgent 需要由能够接收文本和视觉输入的多模态模型驱动。在我们的实验中,我们使用 gpt-4-vision-preview 作为模型,根据如何采取行动来完成智能手机上的任务做出决策。

要配置您的 GPT-4V 请求,请修改 conf

贡献者
imtyC
项目信息
默认分支main
LicenseMIT License
创建时间2023/12/20
最近更新今天
GAI 中文摘要

AppAgent 是一个基于大语言模型的多模态智能体框架,旨在通过模拟人类的操作方式来控制智能手机应用程序。该项目通过视觉交互解决跨应用自动化难题,无需获取底层系统权限即可让智能体执行复杂任务。

支持通过点击、滑动等简单的交互操作来控制各类手机应用。 采用多模态大模型技术,能够解析并理解屏幕界面以进行自主决策。 提供网格覆盖功能,支持对屏幕任何区域进行精确的点击或滑动控制。 具备良好的兼容性,支持通过 Android Studio 模拟器或物理设备运行。

适用于自动化测试人员、开发者以及需要对移动端应用进行批量操作或跨应用流程自动化的用户,常用于简化重复性的手机端交互任务。