🐢 Open-Source Evaluation & Testing library for LLM Agents
Giskard-oss 是一个专注于代理系统测试与评估的开源 Python 库。它通过模块化和异步优先的架构,帮助开发者全面评估大模型、黑盒代理及多步骤工作流的性能与安全性。
提供一套灵活的场景 API 和内置检查工具,用于自动化评估和执行 LLM-as-judge 测试。集成了高级的 AI 漏洞扫描功能,能够有效检测提示词注入、数据泄露及各类模型攻击。支持对 RAG 系统进行深度评估,并具备自动生成合成测试数据的能力。采用轻量级模块化设计,大幅降低了依赖负担,提升了多轮对话系统的测试效率。
该项目适用于大模型开发工程师、AI 安全审计员及 MLOps 专家,常用于构建生产环境前的安全性验证、模型鲁棒性测试以及 RAG 应用的自动化质量评估。