© 2026FindAgent  · @simprr
返回列表
t

truera/trulens

Evaluation and Tracking for LLM Experiments and AI Agents

agent-evaluationagentopsai-agentsai-monitoringai-observabilityevalsexplainable-mlllm-evalllm-evaluationllmopsllmsmachine-learningneural-networks
⭐

3.2k

Stars

🔱

255

Forks

👁

19

Watchers

📋

65

Issues

PythonMIT创建于 2020/11/2更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

PyPI - Version Azure Build Status GitHub PyPI - Downloads Discourse Docs Open In Colab Ask DeepWiki

🦑 欢迎使用 TruLens!

TruLens

别再仅凭“感觉”去校验你的 LLM 应用了! 使用 TruLens 对你的 LLM 实验进行系统性的评估和跟踪。在开发包含 Prompt、模型、检索器、知识源等组件的应用时,TruLens 是你理解应用性能必不可少的工具。

通过细粒度、与技术栈无关的植入(Instrumentation)和全面的评估功能,TruLens 能够帮助你识别故障模式,并进行系统性的迭代以优化你的应用程序。

了解更多关于 TruLens 背后的核心概念,包括 Feedback Functions、The RAG Triad 以及 Honest, Harmless and Helpful Evals。

TruLens 在开发流程中的应用

在构建完第一个原型后,即可通过 TruLens 连接植入和日志记录功能。确定你所需的反馈指标,并在 TruLens 中指定这些指标以同步运行在你的应用中。随后,你就可以在简单易用的用户界面中进行迭代并比较不同版本的应用表现 👇

Architecture Diagram

安装与配置

从 PyPI 安装 trulens pip 包:

    pip install trulens

快速使用

了解如何使用 TruLens 对从零构建的 RAG 进行植入和评估:

Open In Colab

💡 贡献与社区

有意向参与贡献?请查看我们的 贡献指南 以获取更多详情。

支持 TruLens 最好的方式就是在 GitHub 上为我们点个 ⭐,并加入我们的 Discourse 社区!

贡献者
sjpsrssgss
项目信息
默认分支main
LicenseMIT License
创建时间2020/11/2
最近更新今天
GAI 中文摘要

TruLens 是一个专为大语言模型应用和 AI 智能体设计的评估与监控工具。它旨在帮助开发者摆脱凭感觉评估的模式,通过系统化的实验追踪和性能分析,精准定位应用故障并持续优化迭代。

提供细粒度且技术栈无关的仪表化与监控能力,覆盖提示词、模型、检索器等各个环节。支持多种评估反馈函数,帮助开发者量化衡量应用的性能表现。内置 RAG 三元组评估框架,能够深入分析检索增强生成过程中的质量问题。提供直观的用户界面,方便对比不同版本应用的运行效果并分析改进空间。

该工具适用于需要构建高质量 RAG 或复杂 AI 智能体的开发者与团队,特别是在生产环境迭代过程中,需要对模型输出进行严谨验证和性能审计的场景。