An Open Phone Agent Model & Framework. Unlocking the AI Phone for Everyone
25.4k
Stars
4.0k
Forks
109
Watchers
256
Issues
👋 加入我们的 微信 社区
👋 关注智谱 AI 输入法 X 账号
🎤 进一步在我们的产品 智谱 AI 输入法 体验“用嘴发指令”
AutoGLM 实战派 开发者激励活动火热进行中,跑通、二创即可瓜分数万元现金奖池!成果提交 👉 [入口](https://bigmodel.cn/dev/activities/autoglm)
你可以使用 Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。
访问文档,为我安装 AutoGLM
https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md
Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge) 来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
⚠️ 本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。请仔细审阅 使用条款。
Midscene.js 是一款由视觉模型驱动的开源 UI 自动化 SDK,支持通过 JavaScript 或 Yaml 格式的流程语法,实现多平台的自动化。
目前 Midscene.js 已完成对 AutoGLM 模型的适配,你可以通过 Midscene.js 接入指南 快速体验 AutoGLM 在 iOS 和 Android 设备上的自动化效果。
| 模型名称 | 下载链接 |
|---|---|
| AutoGLM-Phone-9B | 🤗 Hugging Face 🤖 ModelScope |
| AutoGLM-Phone-9B-Multilingual | 🤗 Hugging Face 🤖 ModelScope |
其中,AutoGLM-Phone-9B 是针对中文手机应用优化的模型,而 AutoGLM-Phone-9B-Multilingual 支持英语场景,适用于包含英文等其他语言内容的应用。
建议使用 Python 3.10 及以上版本。
根据你的设备类型选择相应的工具:
MacOS 配置方法:在 Terminal 或者任何命令行工具里
# 假设解压后的目录为 ~/Downloads/platform-tools。如果不是请自行调整命令。
export PATH=${PATH}:~/Downloads/platform-tools
Windows 配置方法:可参考 第三方教程 进行配置。
MacOS/Linux 配置方法:
# 假设解压后的目录为 ~/Downloads/harmonyos-sdk/toolchains。请根据实际路径调整。
export PATH=${PATH}:~/Downloads/harmonyos-sdk/toolchains
Windows 配置方法:将 HDC 工具所在目录添加到系统 PATH 环境变量
开发者模式 和 USB 调试设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。设置-开发者选项-USB 调试,勾选启用adb devices 查看是否有设备信息,如果没有说明连接失败。请务必仔细检查相关权限

注意:鸿蒙设备使用原生输入方法,无需安装 ADB Keyboard。
如果你使用的是 Android 设备:
下载 安装包 并在对应的安卓设备中进行安装。
注意,安装完成后还需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效 (或使用命令 adb shell ime enable com.android.adbkeyboard/.AdbIME How-to-use)
如果你使用的是 iPhone 设备,请参考专门的 iOS 配置文档:
该文档详细介绍了如何配置 WebDriverAgent 和 iPhone 设备,以便在 iOS 上使用 AutoGLM。
pip install -r requirements.txt
pip install -e .
确认 USB 数据线具有数据传输功能,而不是仅有充电功能。
确保已安装 ADB 并使用 USB 数据线 连接设备:
# 检查已连接的设备
adb devices
# 输出结果应显示你的设备,如:
# List of devices attached
# emulator-5554 device
确认 USB 数据线具有数据传输功能,而不是仅有充电功能。
确保已安装 HDC 并使用 USB 数据线 连接设备:
# 检查已连接的设备
hdc list targets
# 输出结果应显示你的设备,如:
# 7001005458323933328a01bce01c2500
你可以选择自行部署模型服务,或使用第三方模型服务商。
如果你不想自行部署模型,可以使用以下已部署我们模型的第三方服务:
1. 智谱 BigModel
--base-url: https://open.bigmodel.cn/api/paas/v4--model: autoglm-phone--apikey: 在智谱平台申请你的 API Key2. ModelScope(魔搭社区)
--base-url: https://api-inference.modelscope.cn/v1--model: ZhipuAI/AutoGLM-Phone-9B--apikey: 在 ModelScope 平台申请你的 API Key使用第三方服务的示例:
# 使用智谱 BigModel
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-
Open-AutoGLM 是一个基于视觉语言模型的开源手机智能体框架,旨在通过多模态感知与自动化控制技术,赋予设备自主操作能力。该项目解决了传统自动化工具难以理解复杂界面或缺乏通用性的痛点,实现了手机应用的自然语言交互与智能化控制。
通过多模态视觉模型实时感知手机屏幕内容并解析用户意图。 利用 ADB 或 HDC 技术实现对安卓及鸿蒙设备的高效自动化控制。 支持自动执行复杂任务流程,并在关键环节提供人工接管与安全确认机制。 提供远程调试支持,方便开发者在不同网络环境下进行灵活的远程设备操控。 兼容主流自动化 SDK(如 Midscene.js),扩展了多平台的自动化应用能力。
本项目主要面向开发者、研究人员及自动化爱好者,适用于构建智能语音助手、自动化测试平台以及各类需要远程设备管理的智能场景。