An AI agent that can get things done across iPhone apps.
737
Stars
89
Forks
6
Watchers
5
Issues
PhoneAgent 是一个实验性的移动端自动化项目,包含两种操作模式:
该网桥支持:
45678 上的换行符分隔 JSON-RPCadb 命令支持的本地 JSON-RPC 网桥rpc.py)get_treeget_screen_imageget_contextset_api_keyopen_apptaptap_elemententer_textscrollswipestopsubmit_promptsubmit_prompt 是应用内 iPhone agent 循环的核心驱动力。
adb,用于 Android 网桥)/Users/rounak/Developer/PhoneAgent-cli/PhoneAgent.xcodeproj。PhoneAgent scheme。若要使用 Codex/OpenClaw,请参考技能文档:
# iOS bundle identifier 示例
./.agents/skills/phoneagent/scripts/rpc.py open-app com.apple.Preferences
# Android 包名示例
./.agents/skills/phoneagent/scripts/rpc.py open-app com.android.settings
# 获取 UI 树
./.agents/skills/phoneagent/scripts/rpc.py get-tree
# 截图(将 PNG 写入 /tmp/phoneagent-artifacts)
./.agents/skills/phoneagent/scripts/rpc.py get-screen-image --print-metadata
如果需要非默认的终端设置,CLI 支持 --host 和 --port 参数。
127.0.0.1:45678open_app 请求参数为 bundle_identifier:
com.apple.Preferences)com.android.settings)tap_element / enter_text 使用坐标矩形,格式为 {{x, y}, {w, h}}com.apple.Preferencescom.apple.cameracom.apple.mobileslideshowcom.apple.MobileSMScom.apple.springboard# 配对(在无线调试屏幕中操作)
adb pair
# 连接(在无线调试屏幕中操作)
adb connect
# 验证
adb devices -l
然后使用该网络序列号启动 Android 网桥:
./.agents/skills/phoneagent/scripts/start_android_rpc_bridge_local.sh --serial
127.0.0.1)adb 序列号执行PhoneAgent/PhoneAgentApp.swiftPhoneAgent/ContentView.swift, PhoneAgent/PromptView.swift, PhoneAgent/SettingsView.swiftPhoneAgentUITests/SimulatorRPCServer.swift, PhoneAgentUITests/PhoneAgent.swift.agents/skills/phoneagent/scripts/rpc.py.agents/skills/phoneagent/scripts/start_rpc_bridge_local.sh.agents/skills/phoneagent/scripts/start_android_rpc_bridge_local.sh.agents/skills/phoneagent/scripts/android_rpc_bridge.pysubmit_prompt agent 循环PhoneAgent 是一个实验性的移动端自动化项目,旨在通过人工智能代理实现对 iOS 和 Android 设备的跨应用操作。该项目通过提供轻量级的 RPC 桥接与端侧集成,解决了在不同移动操作系统上实现智能自动化交互的问题。
该项目支持在 iOS 端直接运行集成 AI 的应用程序,实现语音或文本任务处理。通过标准的 JSON-RPC 接口,可以实现对屏幕内容的实时捕捉与解析。支持多种自动化指令,包括点击、滑动、输入文本及打开应用等基础操作。通过配套的桥接工具,允许外部 AI 模型(如 Codex 或 OpenClaw)直接控制物理设备或模拟器。
该项目主要面向移动开发人员及自动化研究人员,适用于需要利用大语言模型构建手机任务自动化工作流、实现跨应用智能操作或进行自动化测试的场景。