Giskard-OSS

🐢 用于 Agentic Systems（智能体系统）的开源评估与测试库模块化、轻量级、动态且优先支持异步

[!IMPORTANT] Giskard v3 是经过全新重构的版本，专为 AI 智能体的动态多轮测试而设计。此版本移除了繁重的依赖项以提升效率，同时引入了更强大的 AI 漏洞扫描器和增强的 RAG 评估功能。目前，漏洞扫描器和 RAG 评估功能仍依赖于 Giskard v2。 Giskard v2 依然可用，但不再进行活跃维护。 关注进展 → 阅读 v3 发布公告 · 路线图

安装

pip install giskard

需要 Python 3.12+。

遥测（Telemetry）： 基于 giskard-core 构建的库（包括 giskard-checks）可能会发送可选的、聚合后的使用数据分析，以帮助改进产品。其中不包含任何 Prompt、模型输出或场景文本。请查看收集内容及如何退出。

Giskard 是一个用于测试和评估智能体系统的开源 Python 库。v3 架构是一套模块化、专注的包集合——每个包仅携带所需的依赖项——从零开始构建，旨在封装任何内容：LLM、黑盒智能体或多步流水线。

状态	包	描述
✅ Beta	`giskard-checks`	测试与评估 —— 场景 API、内置检查、LLM-as-judge
🚧 进行中	`giskard-scan`	智能体漏洞扫描器 —— 红队测试、Prompt 注入、数据泄露（v2 Scan 的继任者）
📋 计划中	`giskard-rag`	RAG 评估与合成数据生成（v2 RAGET 的继任者）

Giskard Checks — 创建并应用评估以测试智能体

pip install giskard-checks

Giskard Checks 是一个轻量级库，用于创建评估（evals）来测试基于 LLM 的系统——从简单的断言到 LLM-as-judge（以 LLM 作为裁判）的评估。与传统的单元测试不同，评估旨在处理非确定性输出，即相同的输入可能会产生不同的有效响应。

使用 Giskard Checks 可以：

捕获回归（Regressions） — 验证系统在变更后行为依然正确
验证 RAG 质量 — 检查回答是否基于检索到的上下文
执行安全规则 — 确保输出符合您的内容策略
评估多轮智能体 — 测试完整的对话流程，而不仅仅是单次交互

内置评估包括字符串匹配、比较、正则表达式、语义相似度和 LLM-as-judge 检查（Groundedness、Conformity、LLMJudge）。

快速开始

from openai import OpenAI
from giskard.checks import Scenario, Groundedness

client = OpenAI()

def get_answer(inputs: str) -> str:
    response = client.chat.completions.create(
        model="gpt-5-mini",
        messages=[{"role": "user", "content": inputs}],
    )
    return response.choices[0].message.content

scenario = (
    Scenario("test_dynamic_output")
    .interact(
        inputs="What is the capital of France?",
        outputs=get_answer,
    )
    .check(
        Groundedness(
            name="answer is grounded",
            context="France is a country in Western Europe. Its capital is Paris.",
        )
    )
)

result = await scenario.run()
result.print_report()

run() 方法是异步的。在脚本中，请用 asyncio.run() 包装它。查看完整文档了解 Suites、LLMJudge、多轮场景等更多信息。

寻找 Giskard v2？

请参考 Giskard v2 文档。

Giskard-AI/giskard-oss

Giskard-OSS

安装

Giskard Checks — 创建并应用评估以测试智能体

快速开始

寻找 Giskard v2？