© 2026FindAgent  · @simprr
返回列表
s

steipete/Peekaboo

Peekaboo is a macOS CLI & optional MCP server that enables AI agents to capture screenshots of applications, or the entire system, with optional visual question answering through local or remote AI models.

aimacosmcpscreenshotsswift
⭐

3.0k

Stars

🔱

209

Forks

👁

10

Watchers

📋

20

Issues

SwiftMIT创建于 2025/5/22更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

Peekaboo 🫣 - 能够识别屏幕并执行点击操作的 Mac 自动化工具

Peekaboo Banner

npm package License: MIT macOS 15.0+ (Sequoia) Swift 6.2 node >=22 Download macOS Homebrew Ask DeepWiki

Peekaboo 为 macOS 带来了高保真屏幕捕获、AI 分析以及完整的 GUI 自动化功能。第 3 版新增了原生的 Agent 流程,并支持跨 CLI 和 MCP server 的多屏幕自动化。

注意:v3 目前处于测试阶段(3.0.0-beta4),存在少量已知问题;详情请参阅更新日志。

主要功能

  • 像素级精准捕获(窗口、屏幕、菜单栏),支持可选的 Retina 2x 缩放。
  • 支持自然语言的 Agent,可串联 Peekaboo 工具链(查看、点击、输入、滚动、热键、菜单、窗口、应用、程序坞、空间)。
  • 支持菜单和菜单栏的结构化 JSON 识别;无需物理点击。
  • 多模型支持:GPT-5.1 系列、Claude 4.x、Grok 4-fast(视觉版)、Gemini 2.5 以及本地 Ollama 模型。
  • 提供适用于 Claude Desktop 和 Cursor 的 MCP server 以及原生 CLI;两者使用相同的工具集。
  • 可配置、可测试的工作流,支持可复现的会话及严格的类型检查。
  • 需要 macOS 的“屏幕录制”和“辅助功能”权限(详见 docs/permissions.md)。

安装

  • macOS 应用 + CLI (Homebrew):
    brew install steipete/tap/peekaboo
    
  • MCP server (Node 22+,无需全局安装):
    npx -y @steipete/peekaboo
    

快速上手

# 以 Retina 分辨率捕获全屏并保存到桌面
peekaboo image --mode screen --retina --path ~/Desktop/screen.png

# 通过标签点击按钮(一次性完成捕获、解析和点击)
peekaboo see --app Safari --json | jq -r '.data.snapshot_id' | read SNAPSHOT
peekaboo click --on "Reload this page" --snapshot "$SNAPSHOT"

# 运行自然语言自动化任务
peekaboo "Open Notes and create a TODO list with three items"

# 作为 MCP server 运行 (适用于 Claude/Cursor)
npx -y @steipete/peekaboo

# 极简 Claude Desktop 配置片段 (Developer → Edit Config):
# {
#   "mcpServers": {
#     "peekaboo": {
#       "command": "npx",
#       "args": ["-y", "@steipete/peekaboo"],
#       "env": {
#         "PEEKABOO_AI_PROVIDERS": "openai/gpt-5.1,anthropic/claude-opus-4"
#       }
#     }
#   }
# }
命令关键标志 / 子命令说明
see--app, --mode screen/window, --retina, --json捕获并标注 UI,返回快照 + 元素 ID
click--on , --snapshot, --wait, coords通过元素 ID、标签或坐标进行点击
type--text, --clear, --delay-ms输入文本,支持节奏设置
presskey names, --repeat特殊按键和序列
hotkeycombos like cmd,shift,t组合键(cmd/ctrl/alt/shift)
scroll--on , --direction up/down, --ticks滚动视图或元素
swipe--from/--to, --duration, --steps平滑手势拖拽
drag--from/--to, modifiers, Dock/Trash targets在元素/坐标间进行拖放
move--to , --screen-index移动光标但不点击
windowlist, move, resize, focus, set-bounds移动/调整窗口大小/聚焦窗口和空间
applaunch, quit, relaunch, switch, list启动、退出、重启、切换应用
spacelist, switch, move-window列出或切换 macOS 空间
menulist, list-all, click, click-extra列出/点击应用菜单和附加项
menubarlist, click按名称/索引定位状态栏项
docklaunch, right-click, hide程序坞相关操作
贡献者
sc0rMSbdTh
项目信息
默认分支main
LicenseMIT License
创建时间2025/5/22
最近更新今天
GAI 中文摘要

Peekaboo 是一款专为 macOS 设计的自动化工具,它通过命令行界面(CLI)和 MCP 服务器,使 AI 智能体能够实时获取屏幕截图并进行视觉分析。该项目旨在赋予 AI 操控图形用户界面的能力,实现对应用程序及系统层面的自动化操作与交互。

精确捕捉窗口、屏幕或菜单栏的高清像素级截图,并支持 Retina 高清缩放。 提供包含点击、输入、滚动、快捷键及菜单操作在内的完整 UI 自动化控制指令。 支持多种主流 AI 模型,包括 GPT、Claude、Grok、Gemini 及本地运行的 Ollama 模型,实现强大的视觉问答与分析。 通过 MCP 服务器无缝集成至 Claude Desktop 和 Cursor,使 AI 助手能够直接调用系统工具执行任务。 具备结构化的 JSON 菜单发现机制,无需额外点击即可获取应用界面信息。

适用于需要进行 UI 自动化测试的开发人员,以及希望通过 AI 智能体跨应用完成复杂桌面操作的高级用户。