microsoft/SkillOpt

SkillOpt is a text-space optimizer that trains reusable natural-language skills for frozen LLM agents through trajectory-driven edits, validation-gated updates, and deployable best_skill.md artifacts.

agent-skillsself-evolving-agents

GAI 中文摘要

SkillOpt 是一个创新的文本空间优化框架，旨在通过模拟深度学习训练过程来迭代优化大语言模型代理的技能。它无需修改模型参数，而是将技能文档视为可训练状态，通过轨迹驱动的编辑和验证门控机制实现代理能力的系统性提升。

该项目通过优化器模型对技能文档执行精确的增删改编辑，确保仅在验证分数提升时才采纳变更。它引入了文本学习率预算和周期性更新策略，使得技能进化过程具有极高的稳定性和可复现性。最终产出的轻量级 best_skill.md 文档可直接部署，在不增加推理成本的前提下显著提升代理在多种任务中的准确率。优化的技能具备跨模型规模和跨执行环境的通用性，能在不同 benchmark 环境下保持稳健表现。

适用于希望在不微调底层模型的前提下，通过系统化方法提升 AI 代理任务执行效果的研究人员与开发者。该工具特别适合需要构建可复用、高可控性代理技能，并追求在多种 CLI 或交互式场景下实现性能量化增长的应用场景。

⭐

4.3k

Stars

🔱

437

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2026/5/8更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

SkillOpt: 用于自我进化智能体技能的执行策略

像训练神经网络一样训练智能体技能——使用 Epoch、mini-batch size、学习率和验证门（Validation Gates）——且无需触碰模型参数。

概述

现代智能体（Agent）技能通常是人工编写的，由强大的 LLM 一次性生成，或是通过松散受控的自我修订进化而来——这些方法在技能本身的行为上都不像深度学习优化器，也无法在反馈下可靠地从起点获得提升。

SkillOpt 将技能文档视为冻结智能体的可训练状态，并以实现权重空间优化可复现性的纪律来训练它。一个独立的优化器模型将评分后的 rollout 转化为对单个技能文档的边界性增删改编辑；只有当编辑严格提升了留存验证集（held-out validation）的分数时，该候选编辑才会被接受。通过文本学习率预算、已拒绝编辑缓冲区以及 epoch 级别的慢速/元更新，SkillOpt 确保了技能训练的稳定性，并在部署时零增加推理时的模型调用。

部署后的产物是一个紧凑的 best_skill.md（通常为 300–2,000 tokens），直接作用于未改变的目标模型。在六个基准测试、七个目标模型和三个执行环境（直接对话、Codex CLI、Claude Code CLI）中，SkillOpt 在所有 52 个评估单元（模型、基准、环境）中表现最优或并列第一。在 GPT-5.5 上，它将平均无技能准确率提升了：直接对话中 +23.5 个点，Codex 智能体循环中 +24.8 个点，Claude Code 中 +19.1 个点。优化后的技能产物可跨模型规模、在 Codex 与 Claude Code 环境之间以及相关基准测试中迁移，无需进一步优化。

有关完整方法、消融实验和各单元结果，请参阅论文；有关循环过程的视觉导览，请访问项目主页；有关更深入的 API / 后端 / 基准文档，请查看 docs/。

🎬 演示视频

https://github.com/user-attachments/assets/eb12d3bc-371c-467f-904d-91b61f339ed7

▶ 在 YouTube 上观看完整演示

安装

环境要求

Python 3.10+

git clone https://github.com/microsoft/SkillOpt.git
cd SkillOpt
pip install -e .

# 若需使用 ALFWorld 基准测试（可选）：
pip install -e ".[alfworld]"
alfworld-download

配置 API 凭据

cp .env.example .env
# 使用你的 API 凭据编辑 .env，然后执行：
source .env

Azure OpenAI (推荐)

export AZURE_OPENAI_ENDPOINT="https://your-resource.openai.azure.com/"
# 选项 1: API key 认证
export AZURE_OPENAI_API_KEY="your-key"
# 选项 2: Azure CLI 认证 (无需 API key)
export AZURE_OPENAI_AUTH_MODE="azure_cli"

注意： 三种模式（api_key, azure_cli, openai_compatible）都需要设置 AZURE_OPENAI_ENDPOINT。否则所有 LLM 调用都将失败。

兼容 OpenAI 的端点

export AZURE_OPENAI_ENDPOINT="https://api.openai.com/v1"
export AZURE_OPENAI_API_KEY="sk-..."
export AZURE_OPENAI_AUTH_MODE="openai_compatible"

此设置将所有调用路由到普通的 OpenAI Python 客户端（无 Azure 认证，无 api-version 请求头）。

注意： 即使在此模式下，SkillOpt 仍重复使用 AZURE_OPENAI_* 环境变量名称——不存在单独的 OPENAI_API_KEY 设置选项。

Anthropic Claude

export ANTHROPIC_API_KEY="sk-ant-..."

Qwen (本地 vLLM)

export QWEN_CHAT_BASE_URL="http://localhost:8000/v1"
export QWEN_CHAT_MODEL="Qwen/Qwen3.5-4B"

qwen_chat 也可用作优化器后端。当优化器和目标需要指向不同的本地 vLLM 服务时，请使用特定于角色的设置：

python scripts/train.py \
    --config configs/searchqa/default.yaml \
    --optimizer_backend qwen_chat \
    --target_backend qwen_chat \
    --optimizer_model Qwen/Qwen3.5-4B \
    --target_model Qwen/Qwen3.5-4B \
    --optimizer_qwen_chat_base_url http://localhost:8001/v1 \
    --target_qwen_chat_base_url http://localhost:8000/v1

MiniMax

export MINIMAX_BASE_URL="https://api.minimax.io/v1"
export MINIMAX_API_KEY="..."
export MINIMAX_MODEL="MiniMax-M2.7"

快速开始

训练

# 最小示例 — 在 SearchQA 上进行训练：
python scripts/train.py \
    --config configs/searchqa/default.yaml \
    --split_dir /path/to/your/searchqa_split \
    --azure_openai_endpoint https://your-resource.openai.azure.com/ \
    --optimizer_model g