Autonomous self-evolving agents. Vision-grounded layered memory and self-written skills for LLM agents that operate your computer.
Photo-agents 是一个基于视觉感知、推理和行动框架的自主智能体系统,旨在让大模型通过屏幕观测来理解并操控计算机。它通过模拟生物记忆机制和自我编写技能,解决了传统文本型智能体无法有效识别 UI 界面与执行复杂操作的痛点。
它内置了一个驱动大模型进行“感知-推理-行动”循环的实时处理引擎。该系统支持多模型路由功能,并集成了文件操作、沙盒代码执行及浏览器自动化等全套物理执行工具。其核心架构包含多层记忆系统,能够存储和调用工作记忆、全局经验及标准操作程序。项目提供丰富的客户端支持,包括 Web 应用、桌面程序及多种主流通讯平台的机器人集成。
该项目适用于需要实现复杂桌面任务自动化的开发者,以及希望构建具备视觉感知与持续学习能力的自主代理的研究人员。它特别适合应用于跨应用的自动化工作流、远程桌面辅助以及需要本地化保护隐私的智能辅助场景。