AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.
AppAgent 是一个基于大语言模型的多模态智能体框架,旨在模拟人类用户操作智能手机应用程序。该框架通过简化的交互空间执行点击、滑动等操作,无需获取系统后端权限即可实现对各类 App 的自动化控制。
通过多模态大模型视觉理解能力识别界面元素,精准执行应用内各项交互任务。 支持灵活的操作模式,包括通过网格覆盖层实现对屏幕任意位置的点击与滑动。 提供高度兼容的部署方案,支持在 Android 实机及 Android Studio 模拟器上运行。 具备良好的模型扩展性,支持接入 GPT-4V 及通义千问-VL 等多种多模态大模型。
适用于需要进行移动端自动化测试、任务执行或辅助交互的研究人员与开发者。该项目可广泛应用于智能手机应用的操作自动化、无障碍交互及 GUI 智能化测试等使用场景。