© 2026FindAgent  · @simprr
返回列表
M

Memento-Teams/Memento

Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

⭐

2.4k

Stars

🔱

277

Forks

👁

33

Watchers

📋

13

Issues

PythonMIT创建于 2025/6/20更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

Memento: 无需微调 LLM 即可实现 LLM Agent 微调

一个基于记忆(Memory-based)、持续学习(Continual-learning)的框架,旨在帮助 LLM Agent 从经验中进化,而无需更新模型权重。

规划者-执行者架构 (Planner–Executor Architecture) • 基于案例的推理 (Case-Based Reasoning) • MCP 工具集成 • 记忆增强学习 (Memory-Augmented Learning)


📰 新闻

  • [2025.10.05] 我们很高兴地宣布,我们的参数化(Parametric)基于案例的推理推理代码现已正式开源!🎉
  • [2025.09.05] 我们增加了使用 vLLM 部署本地 LLM 作为执行者的支持,请参阅 client/agent_local_server.py。🎉
  • [2025.09.03] 我们建立了微信群,以便大家更方便地合作和交流。欢迎加入我们的群组分享想法、提出问题或贡献见解!🔥🔥🔥 立即加入我们的微信群!
  • [2025.08.30] 我们很高兴地宣布,我们的非参数化(No-parametric)基于案例的推理推理代码现已正式开源!🎉
  • [2025.08.28] 我们创建了一个 Discord 服务器,旨在促进关于该项目的讨论与合作。欢迎加入并分享想法、提问或贡献创意!🔥🔥🔥 加入我们的 Discord!
  • [2025.08.27] 感谢您对我们工作的关注!我们将于下周发布 CBR 代码,并在下个月发布参数化记忆(Parametric Memory)代码。我们将持续更新后续开发进展。
  • [2025.08.27] 我们在 server/ai_crawler.py 中添加了一个新的 Crawler MCP,用于网页抓取和查询感知的智能内容压缩,从而降低 Token 成本。
  • [2025.08.26] 我们添加了 SerpAPI (https://serpapi.com/search-api) MCP 工具,帮助您免去使用 Docker 搜索的麻烦,加速开发过程。

🔥 核心特性

  • 无需 LLM 权重更新:Memento 将持续学习重新定义为基于记忆增强 MDP(马尔可夫决策过程)的基于记忆的在线强化学习。通过神经案例选择策略引导行动;经验通过高效的读/写操作进行存储和重用。
  • 两阶段规划者-执行者循环:基于 CBR 的规划者负责分解任务并检索相关案例;执行者作为 MCP 客户端运行每个子任务,负责协调工具并回写结果。
  • 全面的工具生态系统:通过统一的 MCP 接口,内置支持网页搜索、文档处理、代码执行、图像/视频分析等功能。
  • 强大的基准性能:在 GAIA、DeepResearcher、SimpleQA 和 HLE 等基准测试中均取得了极具竞争力的表现。

🧠 核心理念

从经验中学习,而非从梯度中学习。 Memento 将成功和失败的轨迹记录到**案例库(Case Bank)**中,并按价值检索案例,以此指导规划和执行,从而实现低成本、可迁移的在线持续学习。


🏗️ 架构

核心组件

  • Meta-Planner(元规划者):使用 GPT-4o 将高层查询分解为可执行的子任务。
  • Executor(执行者):通过 MCP 工具使用 o3 或其他模型执行具体的子任务。
  • Case Memory(案例记忆):存储最终步骤的元组 (s_T, a_T, r_T),用于经验回放。
  • MCP Tool Layer(MCP 工具层):外部工具和服务的统一接口。

工具生态

  • Web 研究:通过 SearxNG 进行实时搜索和受控抓取。
  • 文档处理:支持多种格式(PDF、Office、图像、音频、视频)。
  • 代码执行:带有安全控制的沙盒 Python 工作区。
  • 数据分析:Excel 处理、数学计算。
  • 媒体分析:图像描述、视频叙述、音频转录。

🚀 快速上手

前置要求

  • Python 3.11+
  • OpenAI API Key(或兼容的 API 端点)
  • 用于网页搜索的 SearxNG 实例
  • FFmpeg(视频处理所需的系统级二进制文件)
  • PyTorch 2.0+(带 CUDA 支持,用于参数化记忆)

📖 详细安装说明,请参阅 INSTALL.md

安装

方法 1:使用 uv(推荐 - 快速且现代)

# 克隆仓库
git clone https://github.com/Agent-on-the-Fly/Memento
cd Memento

# 如果未安装 uv,请先安装
curl -LsSf https://astral.sh/uv/install.sh | sh

# 同步依赖并自动创建虚拟环境
uv sync

# 激活虚拟环境
source .venv/bin/activate  # Windows 下: .venv\Scripts\activate

方法 2:使用 pip 和 requirements.txt

# 克隆仓库
git clone https://github.com/Agent-on-the-Fly/Memento
cd Memento

# 创建并激活虚拟环境
python -m venv .venv
source .venv/bin/activate  # Windows 下: .venv\Scripts\activate

# 安装依赖
pip install -r requirements.txt

PyTorch 安装

针对 GPU 支持(推荐用于参数化记忆):

# 请根据您的 CUDA 版本查看 pytorch.org 以获取安装指令
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
贡献者
HgYMYTUh
项目信息
默认分支main
LicenseMIT License
创建时间2025/6/20
最近更新今天
GAI 中文摘要

Memento 是一个基于内存的持续学习框架,旨在帮助大语言模型(LLM)智能体在不更新模型权重的前提下,通过积累和复用过往经验实现能力的自我进化。该项目通过重构智能体的学习方式,有效解决了大模型在处理复杂任务时难以实时更新知识及适应新场景的问题。

该框架采用独特的规划器与执行器架构,通过案例推理机制实现任务分解与历史经验检索。

它支持内存增强型学习,能够高效存储并重用智能体的行动决策,从而实现持续的性能优化。

系统深度集成了 MCP 工具协议,确保智能体可以灵活调用外部工具并执行复杂任务。

框架能够实现零权重更新下的在线强化学习,大幅降低了模型训练与适应的算力成本。

该项目适用于希望在不重新训练大模型的情况下,让智能体具备持续学习能力的开发者与研究人员,特别适合需要处理复杂任务、需实时迭代优化效果的应用场景。