lemony-ai/cascadeflow

Cascading runtime for AI agents. Optimize cost, latency, quality, and policy decisions inside the agent loop.

agentaianthropicapibudgetsclaudecost-optimizationcost-transparencygoogle-adkgpthuggingfacellmmodel-cascadingn8nollamaopenaipythontogether-aitypescriptvllm

GAI 中文摘要

Cascadeflow 是一个专为 AI Agent 设计的级联运行时智能层，旨在通过自动化编排模型选择，在智能体运行循环中平衡成本、延迟、输出质量及合规性。它能够根据任务需求智能切换不同规格的 LLM，从而在显著降低 API 开支的同时，保持 Agent 系统的高性能表现。

支持基于模型级联策略实现成本动态优化，自动在高性能模型和高性价比模型间进行任务分发。具备全链路监测能力，提供对 API 成本、推理延迟及模型质量的透明度监控与统计。内置灵活的路由决策引擎，允许开发者自定义模型切换规则和预算阈值。提供与 LangChain、Vercel AI SDK 及 n8n 等主流生态的深度集成，兼容 Python 和 TypeScript 开发环境。

适用于对 API 调用成本敏感、追求高吞吐量及稳定性的企业级 AI 应用开发者，特别适合在复杂的 Agent 编排流程中实施模型成本优化策略。

⭐

2.4k

Stars

🔱

573

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2025/10/24更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Agent 运行时智能层

成本节省： MT-Bench 节省 69%，GSM8K 节省 93%，MMLU 节省 52%，TruthfulQA 节省 80%，同时保留了 96% 的 GPT-4 质量水平。

Python • TypeScript • LangChain • OpenAI Agents • CrewAI • PydanticAI • Google ADK • n8n • Vercel AI • OpenClaw • Hermes Agent • 📖 文档 • 💡 示例

面向 AI Agent 的进程内智能层。 在执行循环内部（而非 HTTP 边界处）优化成本、延迟、质量、预算、合规性和能耗。

cascadeflow 可以实现外部代理（Proxy）无法做到的功能：基于 Agent 状态的逐步骤模型决策、工具调用的预算限制、运行时的停止/继续/升级操作，以及在 Agent 循环中注入业务 KPI。它能够积累来自每次模型调用、工具结果和质量评分的见解，让 Agent 在运行中变得越来越智能。开销低于 5ms。支持 LangChain、OpenAI Agents SDK、CrewAI、PydanticAI、Google ADK、n8n、Vercel AI SDK 以及 Hermes Agent。

更新

Hermes Agent 委派级联

CascadeFlow 现已提供 Hermes Agent 集成，支持技能级模型级联、任务复杂度级联、话题感知子 Agent 级联、观察模式（Observe-mode）发布以及可审计的决策，且无需接管服务商凭证、基础 URL、回退链或 API 模式。

pip install cascadeflow

npm install @cascadeflow/core

为什么选择 cascadeflow？

代理（Proxy）与进程内框架（In-Process Harness）对比

维度	外部代理 (External Proxy)	cascadeflow 框架
作用域	HTTP 请求边界	Agent 执行循环内部
优化维度	仅限成本	成本 + 质量 + 延迟 + 预算 + 合规 + 能耗
延迟开销	10-50ms 网络 RTT	< 5ms

使用场景

循环内控制 (Inside-the-Loop Control)： 在 Agent 的每一步（模型调用、工具调用、子 Agent 移交）影响决策，而这些正是成本、延迟和故障最常发生的地方。外部代理只能看到请求边界，而 cascadeflow 可以看到决策边界。
多维度优化 (Multi-Dimensional Optimization)： 同时优化成本、延迟、质量、预算、合规/风险及能耗 —— 这对于工程、财务、安全、运营和可持续发展相关人员至关重要。
业务逻辑注入 (Business Logic Injection)： 在运行时直接将 KPI 权重和策略意图嵌入到 Agent 行为中。将 AI 的控制权从静态的提示词设计（Prompt Design）转变为实时的业务治理。
运行时强制执行 (Runtime Enforcement)： 通过四种方式直接引导结果。