jmerelnyc/Photo-agents

Autonomous self-evolving agents. Vision-grounded layered memory and self-written skills for LLM agents that operate your computer.

agent-memoryai-agentsautonomous-agentscomputer-usellmphoto-agentsphotographic-memorypythonself-evolving-agentsvision-agents

GAI 中文摘要

Photo-agents 是一个基于视觉感知、推理和行动框架的自主智能体系统，旨在让大模型通过屏幕观测来理解并操控计算机。它通过模拟生物记忆机制和自我编写技能，解决了传统文本型智能体无法有效识别 UI 界面与执行复杂操作的痛点。

它内置了一个驱动大模型进行“感知-推理-行动”循环的实时处理引擎。该系统支持多模型路由功能，并集成了文件操作、沙盒代码执行及浏览器自动化等全套物理执行工具。其核心架构包含多层记忆系统，能够存储和调用工作记忆、全局经验及标准操作程序。项目提供丰富的客户端支持，包括 Web 应用、桌面程序及多种主流通讯平台的机器人集成。

该项目适用于需要实现复杂桌面任务自动化的开发者，以及希望构建具备视觉感知与持续学习能力的自主代理的研究人员。它特别适合应用于跨应用的自动化工作流、远程桌面辅助以及需要本地化保护隐私的智能辅助场景。

⭐

954

Stars

🔱

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2026/5/4更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Photo Agents

自主、自我进化的 Photo Agents。一个专为“视觉感知”设计的代理框架，通过感知（perceive）、推理（reason）、行动（act）的闭环，让智能体能够像你一样操作你的电脑。

“100% 自主、自我进化的智能体。” photo-agents.com

Star History

(此处原图表占位符保留)

关于项目

Photo Agents 致力于构建下一代由 LLM 驱动的智能体，这些智能体能够基于屏幕上实际看到的内容进行操作。我们不再仅仅是将冗长的聊天记录丢给模型并祈求最好的结果，而是采用生物学处理记忆的方式：输入视觉信息，将观察结果分层存储，并由智能体根据成功的实战经验自行编写技能。

本仓库中的软件包就是实现这一理念的运行环境。它在本地运行，因此你可以完全掌控你的屏幕、数据和密钥。

官方网站：https://photo-agents.com
X / Twitter：https://x.com/photoagents

请在 X 上关注 @photo_agents 获取构建笔记、演示，以及关于为什么纯文本智能体永远无法理解你的 UI 的深度解析。

功能特性

Photo Agents 是一个单一的 Python 软件包，集成了以下功能：

流式 Agent Loop (photoagents.core.loop.run_agent_session)：驱动任何具备 Tool-calling 能力的 LLM 完成“感知 → 推理 → 行动”的循环。
多提供商 LLM 路由 (photoagents.llm.router)：原生支持 Anthropic Claude 和 OpenAI GPT，并具备混合故障转移（failover）会话能力。
物理执行工具集：包含文件 I/O、沙盒代码执行（Python / PowerShell / bash）、通过 Chrome DevTools Protocol 桥接实现的浏览器自动化，以及分层记忆系统（工作记忆 / 全局记忆 / SOP / 会话存档）。
可插拔客户端：提供美观的 Streamlit Web 应用、PyQt 桌面应用、桌面伴侣，以及适用于 Telegram、QQ、飞书、企业微信和钉钉的即用型机器人。
可选的可观测性：通过 Langfuse 集成，并支持 cron 风格的任务调度。

整个系统由远程校验的 Photo Agents API key 保护，确保使用过程可追溯。

安装

pip install photoagents
# 或安装所有可选客户端和集成
pip install "photoagents[all]"

Photo Agents 需要 Python 3.10+ 环境。

获取 API Key

Photo Agents 需要一个许可证密钥，并通过 https://photo-agents.com/v1/keys/validate 进行验证。请登录并创建密钥：

https://photo-agents.com/dashboard/keys

获取后，可以通过以下任一方式（按优先级检查）将其提供给运行时：

环境变量：PHOTOAGENTS_API_KEY=pk_live_...
保存的配置文件：~/.photoagents/config.json 中的 api_key 字段
首次运行时交互式输入（程序会询问是否自动保存）

验证成功后会缓存 24 小时，以确保鉴权过程高效。

LLM 凭证配置

复制凭证模板并填入你的服务商密钥：

# 从仓库根目录执行
cp photoagents/config/keys_template.py credentials.py
# 然后编辑 credentials.py 并取消注释其中一个服务商配置

运行时也支持使用相同结构的 JSON 文件 (credentials.json)。

运行

# 在终端启动交互式 REPL
python -m photoagents

# 单次执行模式（One-shot file-IO mode）
python -m photoagents --task my_task --input "List the largest files in this directory."

# 反思 / 守卫模式（你的 check() 函数会触发下一个任务）
python -m photoagents --reflect photoagents/evolution/scheduler.py

GUI 客户端

Photo Agents 提供多个可选的前端，请根据你的工作流选择：

客户端	启动命令
Streamlit Web 应用 + webview	`pythonw -m photoagents.cli.launcher`
服务中心 (启动/停止)	`pythonw -m photoagents.cli.hub`
桌面应用 (PyQt)	`python -m photoagents.clients.desktop_app`
桌面伴侣	`pythonw -m photoagents.clients.companion_v2`
Telegram 机器人	`python -m photoagents.clients.telegram_client`
飞书 / 企业微信 / 钉钉 / QQ	`python -m photoagents.clients._client`

启动器和中心在启动任何服务前都会先通过 API Key 校验，如果密钥缺失或失效，它们将拒绝启动。

磁盘存储路径

路径	用途
`~/.photoagents/config.json`	API Key + 许可证验证缓存
`~/.photoagents/global_mem.txt`	长期 L2 事实记忆
`~/.photoagents/sessions/`	L4 原始会话存档
`~/.photoagents/skill_index/`	技能 / SOP 搜索的向量索引
`~/.photoagents/temp/`	任务临时空间（日志、中间输出）

项目结构

photoagents/
├── auth/        许可证验证（远程校验）