AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.
AppAgent 是一个基于大语言模型的多模态智能体框架,旨在通过模拟人类的操作方式来控制智能手机应用程序。该项目通过视觉交互解决跨应用自动化难题,无需获取底层系统权限即可让智能体执行复杂任务。
支持通过点击、滑动等简单的交互操作来控制各类手机应用。 采用多模态大模型技术,能够解析并理解屏幕界面以进行自主决策。 提供网格覆盖功能,支持对屏幕任何区域进行精确的点击或滑动控制。 具备良好的兼容性,支持通过 Android Studio 模拟器或物理设备运行。
适用于自动化测试人员、开发者以及需要对移动端应用进行批量操作或跨应用流程自动化的用户,常用于简化重复性的手机端交互任务。