© 2026FindAgent  · @simprr
返回列表
G

Giskard-AI/giskard-oss

🐢 Open-Source Evaluation & Testing library for LLM Agents

agent-evaluationai-red-teamai-securityai-testingfairness-aillmllm-evalllm-evaluationllm-securityllmopsml-testingml-validationmlopsrag-evaluationred-team-toolsresponsible-aitrustworthy-ai
⭐

5.2k

Stars

🔱

419

Forks

👁

39

Watchers

📋

20

Issues

PythonApache-2.0创建于 2022/3/6更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

Giskard-AI/giskard-oss

用于 Agentic Systems(代理系统)的评估、红队测试(Red Teaming)和测试生成工具。 模块化、轻量级、动态且优先支持异步。

GitHub release License Downloads CI Giskard on Discord

文档 • 官网 • 社区

[!IMPORTANT] Giskard v3 是经过全新重写的版本,专为 AI Agent 的动态、多轮测试而设计。此版本移除了繁重的依赖项以提升效率,同时引入了更强大的 AI 漏洞扫描器和增强的 RAG 评估功能。目前,漏洞扫描器和 RAG 评估仍依赖于 Giskard v2。 Giskard v2 依然可用,但不再进行活跃维护。 关注进展 → 阅读 v3 发布公告 · 路线图

安装

pip install giskard

要求 Python 3.12+。


Giskard 是一个用于测试和评估代理系统的开源 Python 库。v3 架构由一组专注的模块化包组成,每个包仅包含其所需的依赖项,从零构建以适配任何对象:LLM、黑盒 Agent 或多步骤流水线。

状态包名描述
✅ Alphagiskard-checks测试与评估 —— 场景 API、内置检查项、LLM-as-judge
🚧 进行中giskard-scanAgent 漏洞扫描器 —— 红队测试、提示词注入、数据泄露(v2 Scan 的继任者)
📋 计划中giskard-ragRAG 评估与合成数据生成(v2 RAGET 的继任者)

Giskard Checks — 创建并应用 Agent 测试评估

pip install giskard-checks

Giskard Checks 是一个轻量级库,用于创建测试 LLM 系统评估(evals)—— 从简单的断言到 LLM-as-judge(以 LLM 作为裁判)的评估。与传统的单元测试不同,评估旨在处理非确定性输出,即相同的输入可能会产生不同的有效响应。

使用 Giskard Checks 可以:

  • 捕获回归问题 — 验证系统在变更后是否仍能正常运行
  • 验证 RAG 质量 — 检查回答是否基于检索到的上下文
  • 强制执行安全规则 — 确保输出符合你的内容策略
  • 评估多轮 Agent — 测试完整的对话,而不仅仅是单次交互

内置评估包括字符串匹配、比较、正则表达式、语义相似度以及 LLM-as-judge 检查(Groundedness、Conformity、LLMJudge)。

快速开始

from openai import OpenAI
from giskard.checks import Scenario, Groundedness

client = OpenAI()

def get_answer(inputs: str) -> str:
    response = client.chat.completions.create(
        model="gpt-5-mini",
        messages=[{"role": "user", "content": inputs}],
    )
    return response.choices[0].message.content

scenario = (
    Scenario("test_dynamic_output")
    .interact(
        inputs="What is the capital of France?",
        outputs=get_answer,
    )
    .check(
        Groundedness(
            name="answer is grounded",
            answer_key="trace.last.outputs",
            context="France is a country in Western Europe. Its capital is Paris.",
        )
    )
)

result = await scenario.run()
result.print_report()

run() 方法是异步的。在脚本中,请使用 asyncio.run() 进行包装。查看 完整文档 以了解 Suites、LLMJudge、多轮场景等更多信息。

寻找 Giskard v2?

Giskard v2 包含了用于机器学习模型和 LLM 应用的 Scan(自动漏洞检测)和 RAGET(RAG 评估测试集生成)。这些功能在 v3 中尚未提供。

pip install "giskard[llm]>2"

RAGET — 为 RAG 应用生成评估数据集

从你的知识库中自动生成问题、参考答案和上下文:

import pandas as pd
from giskard.rag import generate_testset, KnowledgeBase

# 加载你的知识库文档
df = pd.read_csv("path/to/your/knowledge_base.csv")
knowledge_base = KnowledgeBase(df)
# ...
贡献者
kamhrHjIpm
项目信息
默认分支main
LicenseApache License 2.0
创建时间2022/3/6
最近更新今天
GAI 中文摘要

Giskard-oss 是一个专注于代理系统测试与评估的开源 Python 库。它通过模块化和异步优先的架构,帮助开发者全面评估大模型、黑盒代理及多步骤工作流的性能与安全性。

提供一套灵活的场景 API 和内置检查工具,用于自动化评估和执行 LLM-as-judge 测试。集成了高级的 AI 漏洞扫描功能,能够有效检测提示词注入、数据泄露及各类模型攻击。支持对 RAG 系统进行深度评估,并具备自动生成合成测试数据的能力。采用轻量级模块化设计,大幅降低了依赖负担,提升了多轮对话系统的测试效率。

该项目适用于大模型开发工程师、AI 安全审计员及 MLOps 专家,常用于构建生产环境前的安全性验证、模型鲁棒性测试以及 RAG 应用的自动化质量评估。