🦀 PinchBench

面向 AI 编程智能体的真实世界基准测试

注意： 本仓库包含基准测试的 skill（技能）/tasks（任务）。它并非官方排行榜结果的源头。如需将模型添加到官方结果中，请修改 pinchbench/scripts/default-models.yml。

PinchBench 用于衡量 LLM 模型作为 OpenClaw 智能体“大脑”的表现。我们不再使用合成测试，而是向智能体抛出真实的业务任务：安排会议、编写代码、分类电子邮件、调研课题以及管理文件。

测试结果汇总在公开排行榜 pinchbench.com 上。

PinchBench

为什么选择 PinchBench？

大多数 LLM 基准测试仅测试孤立的能力，而 PinchBench 测试的是对编程智能体而言真正重要的事情：

工具使用 — 模型能否调用正确的工具并传入正确的参数？
多步推理 — 模型能否将多个动作串联起来以完成复杂任务？
现实环境的混乱性 — 模型能否处理模糊的指令和不完整的信息？
实际产出 — 模型是否真的创建了文件、发送了邮件或安排了会议？

快速开始

# 克隆 skill 仓库
git clone https://github.com/pinchbench/skill.git
cd skill

# 使用你选择的模型运行基准测试
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

# 或运行特定的任务套件
./scripts/run.sh --model openrouter/openai/gpt-4o --suite task_calendar,task_stock

注意： 模型 ID 必须包含其提供商前缀（例如 openrouter/、anthropic/）。OpenRouter 是默认的路由提供商。

需求：

Python 3.10+
uv 包管理器
一个正在运行的 OpenClaw 实例

测试内容

PinchBench 涵盖了现实世界中 53 个类别的任务：

分类	任务	测试内容
生产力	日历、每日摘要	事件创建、时间解析、日程安排
调研	股票价格、会议、市场	网络搜索、数据提取、综合分析
写作	博客文章、电子邮件、人性化写作	内容生成、语气控制、格式调整
编程	天气脚本、文件结构	代码生成、文件操作
分析	电子表格、PDF、文档	数据处理、摘要提取
电子邮件	分类、搜索	邮箱管理、过滤
记忆	上下文检索、知识管理	长期记忆、信息召回
技能	ClawHub、技能发现	OpenClaw 生态系统集成

每个任务都通过 LLM 评估器（Judge）进行自动评分，或采用综合评分方式，以确保评价既客观又具有细微的专业度。

提交结果

若要将你的结果展示在排行榜上：

# 注册 API token（仅需一次）
./scripts/run.sh --register

# 运行基准测试 — 结果会自动通过你的 token 上传
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

如果只想查看本地结果，可以使用 --no-upload 跳过上传。

官方结果

若要提交官方运行记录（会在排行榜上进行标记）：

# 使用环境变量
export PINCHBENCH_OFFICIAL_KEY=your_official_key
./scripts/run.sh --model anthropic/claude-sonnet-4

# 使用命令行标志
./scripts/run.sh --model anthropic/claude-sonnet-4 --official-key your_official_key

命令参考

标志	描述
`--model MODEL`	待测试的模型（例如 `openrouter/anthropic/claude-sonnet-4`）
`--judge MODEL`	用于 LLM 评分的裁判模型；设置后将使用直接 API（详见下文）
`--suite SUITE`	`all`、`automated-only` 或逗号分隔的任务 ID
`--runs N`	每个任务的运行次数，用于计算平均值
`--timeout-multiplier N`	针对速度较慢的模型调整超时限制
`--thinking LEVEL`	推理深度：`off`、`minimal`、`low`、`medium`、`high`、`xhigh`、`adaptive`
`--output-dir DIR`	保存结果的目录（默认：`results/`）
`--no-upload`	禁止自动上传结果