truera/trulens

Evaluation and Tracking for LLM Experiments and AI Agents

agent-evaluationagentopsai-agentsai-monitoringai-observabilityevalsexplainable-mlllm-evalllm-evaluationllmopsllmsmachine-learningneural-networks

GAI 中文摘要

TruLens 是一个专为大语言模型应用设计的评估与追踪工具，旨在替代传统的感性评估（vibe-check），通过科学严谨的方法量化应用性能。它能够对 LLM 应用的提示词、模型调用及检索过程进行深度监控，帮助开发者快速发现故障模式并进行系统性迭代。

支持基于 OpenTelemetry 的链路追踪，能够详细记录函数调用、模型生成及工具执行过程。提供名为“反馈函数”的评估机制，用于量化分析 LLM 应用的质量指标。内置 RAG 三元组评估框架，专门针对检索增强生成系统的准确性进行验证。具备跨框架的兼容性，能够无缝集成到主流 LLM 开发生态中。提供可视化看板，方便用户对比不同版本应用的性能数据以支持决策。

该工具适用于正在开发和部署大语言模型、智能体（AI Agents）及 RAG 系统的研发团队，特别适合在需要对生产环境性能进行严格质量控制的场景下使用。

⭐

3.4k

Stars

🔱

284

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2020/11/2更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

PyPI - Version GitHub PyPI - Downloads

🦑 欢迎使用 TruLens!

TruLens

不要仅仅凭“感觉”去测试你的 LLM 应用！ 使用 TruLens 系统地评估和追踪你的 LLM 实验。在开发包含 Prompt、模型、检索器、知识源等组件的应用时，TruLens 是你理解应用性能所需的关键工具。

通过细粒度、与技术栈无关的植入（Instrumentation）和全面的评估，TruLens 能够帮你识别故障模式，并系统地进行迭代以优化你的应用程序。

阅读更多关于 TruLens 核心概念的内容，包括反馈函数 (Feedback Functions)、RAG 三元组 (The RAG Triad) 以及诚实、无害且有用的评估 (Honest, Harmless and Helpful Evals)。

开发工作流中的 TruLens

构建你的第一个原型，然后使用 TruLens 连接植入和日志记录。确定你需要的反馈，并通过 TruLens 指定它们与你的应用程序同步运行。随后，你可以在易于使用的用户界面中迭代并比较不同版本的应用 👇

Architecture Diagram

安装与设置

从 PyPI 安装 trulens pip 包。

pip install trulens-core

针对特定的 LLM 提供商安装以支持反馈评估：

pip install trulens trulens-providers-openai   # OpenAI / Azure OpenAI
pip install trulens trulens-providers-litellm  # LiteLLM (Anthropic, Cohere, Mistral, …)
pip install trulens trulens-providers-google   # Google Gemini
pip install trulens trulens-providers-bedrock  # AWS Bedrock
pip install trulens trulens-providers-cortex   # Snowflake Cortex
pip install trulens trulens-providers-huggingface  # HuggingFace
pip install trulens trulens-providers-langchain    # LangChain models

针对特定的应用框架集成进行安装：

pip install trulens trulens-apps-langchain    # LangChain / LangGraph
pip install trulens trulens-apps-llamaindex  # LlamaIndex

快速上手

了解如何使用 TruLens 对从零构建的 RAG 进行植入和评估。

核心功能

🔭 基于 OpenTelemetry 的追踪

TruLens 的植入功能构建于 OpenTelemetry 之上。每一次函数调用、LLM 生成、检索和工具调用都会被捕获为结构化的 OTEL Span。这使得 TruLens 可以与现有的可观测性基础设施互操作 —— 你可以将 Trace 导出到 Jaeger、Grafana Tempo、Datadog 或任何兼容 OTLP 的后端。

from trulens.core.otel.instrument import instrument
from trulens.otel.semconv.trace import SpanAttributes

class MyRAG:
    @instrument(
        span_type=SpanAttributes.SpanType.RETRIEVAL,
        attributes={
            SpanAttributes.RETRIEVAL.QUERY_TEXT: "query",
            SpanAttributes.RETRIEVAL.RETRIEVED_CONTEXTS: "return",
        },
    )
    def retrieve(self, query: str) -> list:
        ...

🤖 智能体（Agentic）评估

针对智能体系统专门构建了七种评估器，每种评估器衡量智能体行为的一个独特方面：

评估器	衡量内容
LogicalConsistency	推理连贯性；标记幻觉和无根据的断言
ExecutionEfficiency	冗余步骤、不必要的重试、计算浪费
PlanAdherence	执行是否遵循了既定计划
PlanQuality	计划的内在质量 —— 策略而非结果
ToolSelection	每个子任务是否选择了正确的工具
ToolCalling	参数有效性和输出解释
ToolQuality	外部工具/服务的可靠性

📊 批量与内联评估

运行评估。