© 2026FindAgent  · @simprr
返回列表
m

minitap-ai/mobile-use

AI agents can now use real Android and iOS apps, just like a human.

agentsaibrowser-uselangchainlanggraphlanggraph-pythonmobilemobile-usepythonqa
⭐

2.4k

Stars

🔱

198

Forks

👁

13

Watchers

📋

10

Issues

PythonApache-2.0创建于 2025/8/16更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

mobile-use:使用自然语言自动化你的手机

mobile-use 演示

Discord GitHub stars

☁️ 云平台 •
📚 文档 •
📃 论文

Discord •
Twitter / X

PyPI version Python Version License

Mobile-use 是一款功能强大的开源 AI Agent,它能够通过自然语言控制你的 Android 或 iOS 设备。它能理解你的指令并与 UI 进行交互以执行任务,从发送消息到导航复杂 App,无所不能。

Mobile-use 正在快速迭代。你的建议、想法和反馈的 Bug 将推动这个项目的发展。欢迎加入我们的 Discord 参与讨论或直接贡献代码,我们会回复每一位开发者!❤️

✨ 特性

  • 🗣️ 自然语言控制:使用你的母语与手机交互。
  • 📱 UI 感知自动化:智能导航各种 App 界面(注意:目前对游戏的兼容性有限,因为游戏通常不提供无障碍树数据)。
  • 📊 数据抓取:通过自然语言描述,从任何 App 中提取信息并将其结构化为你需要的格式(例如 JSON)。
  • 🔧 可扩展且可定制:轻松配置不同的 LLM 来驱动 Mobile-use 的 Agent。

基准测试

我们是首个在 AndroidWorld 基准测试中达到 100% 完成度的领先团队。

了解我们如何达成这一里程碑的更多信息:Minitap Benchmark。

官方排行榜可查看 此处。

点击 此处 阅读我们的研究论文。

🚀 快速上手

准备好自动化你的手机体验了吗?请按照以下步骤启动 mobile-use。

🌐 使用我们的平台

最简单的方式是使用我们的云平台。 请参考我们的 平台快速入门指南 进行设置。

🛠️ 从源码安装

  1. 设置环境变量: 将示例文件 .env.example 复制为 .env 并填入你的 API keys。

    cp .env.example .env
    
  2. (可选)自定义 LLM 配置: 若要使用不同的模型或提供商,请创建你自己的 LLM 配置文件。

    cp llm-config.override.template.jsonc llm-config.override.jsonc
    

    然后根据需要编辑 llm-config.override.jsonc。

    你也可以使用本地 LLM 或任何其他兼容 OpenAI API 的提供商:

    1. 在 .env 中设置 OPENAI_BASE_URL 和 OPENAI_API_KEY。
    2. 在 llm-config.override.jsonc 中,为你想要的 Agent 节点指定 openai 作为提供商,并选择你提供商所支持的模型。

    [!NOTE] 如果你想使用 Google Vertex AI,必须满足以下条件之一:

    • 为你的环境配置了凭据(gcloud, workload identity 等)
    • 将服务账号 JSON 文件的路径存储为 GOOGLE_APPLICATION_CREDENTIALS 环境变量

    更多信息:- 凭据类型 - google.auth API 参考

快速启动 (Docker)

[!NOTE] 此快速启动目前仅适用于 Android 设备/模拟器,且要求安装 Docker。

首先:

  • 连接你的 Android 设备并通过开发者选项启用 USB 调试
  • 或启动一个 Android 模拟器

然后在终端运行:

  1. 对于 Linux/macOS:
chmod +x mobile-use.sh
bash ./mobile-use.sh \
  "Open Gmail, find first 3 unread emails, and list their sender and subject line" \
  --output-description "A JSON list of objects, each with 'sender' and 'subject' keys"
  1. 对于 Windows (在 Powershell 终端中):
powershell.exe -ExecutionPolicy Bypass -File mobile-use.ps1 `
  "Open Gmail, find first 3 unread emails, and list their sender and subject line" `
  --output-description "A JSON list of objects, each with 'sender' and 'subject' keys"

[!NOTE] 如果使用自己的设备,请确保同意设备上弹出的 ADB 连接请求。

🧰 故障排查

贡献者
pKcclnmWyj
项目信息
默认分支main
LicenseApache License 2.0
创建时间2025/8/16
最近更新今天
GAI 中文摘要

mobile-use 是一个基于 Python 构建的开源 AI 代理框架,旨在让 AI 能够像人类一样通过自然语言指令直接控制 Android 和 iOS 设备。该项目通过模拟用户交互与界面操作,解决了移动端自动化执行复杂任务的难题。

支持通过自然语言指令对手机应用进行直接交互与控制。 具备 UI 界面感知能力,能够智能识别并导航至各类应用程序。 支持从各类 App 中高效提取数据,并将其结构化为所需的格式。 架构高度可扩展,允许用户灵活配置不同的底层大模型(LLM)来驱动代理。 在 AndroidWorld 基准测试中表现优异,是首个实现 100% 任务完成率的项目。

该项目适用于需要实现手机端自动化测试、跨应用流程自动化或大规模数据抓取的开发者及企业用户。在移动端应用测试、重复性任务处理以及智能手机自动化流程构建等场景中具有极高价值。