🐢 Open-Source Evaluation & Testing library for LLM Agents
Giskard-oss 是一个专注于大模型代理系统评估与测试的开源 Python 库。它通过模块化的架构设计,帮助开发者对 LLM、黑盒代理及多步骤工作流进行全面的验证与质量保证。
提供自动化的 AI 漏洞扫描功能以识别模型潜在的安全风险。支持针对 RAG 系统及多轮对话代理进行深入的性能评估。具备强大的测试生成能力,能够根据业务逻辑自动创建针对性的评估用例。采用轻量级与异步优先的设计,确保在高并发及复杂工作流下的运行效率。支持对任意模型或 pipeline 进行封装,实现跨平台的通用评估能力。
该项目适用于从事 LLM 应用开发、AI 安全测试及 MLOps 的工程团队,主要用于在产品上线前进行全方位的鲁棒性测试与安全性加固。