© 2026FindAgent  · @simprr
返回列表
H

HolmesGPT/holmesgpt

SRE Agent - CNCF Sandbox Project

aiopschatbotchatopsdevopsdevops-toolsincidentincident-managementincident-responsejirakubernetesllmllm-agentllm-frameworkllmsmonitoringobservabilityprometheussite-reliability-engineeringslacksre
⭐

2.1k

Stars

🔱

280

Forks

👁

21

Watchers

📋

243

Issues

PythonApache-2.0创建于 2024/5/30更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

HolmesGPT — CNCF SRE Agent

[ 安装指南 ] | [ 文档 ]

用于调查生产环境事件并查找根本原因的开源 AI Agent。适用于任何技术栈——包括 Kubernetes、虚拟机、云服务提供商、数据库和 SaaS 平台。我们是 云原生计算基金会 (CNCF) 的沙盒项目。由 Robusta.Dev 最初创建,并得到了 Microsoft 的重要贡献。

新功能:Operator 模式 — 24/7 后台自动发现问题

大多数 AI Agent 虽然擅长排查问题,但仍需要人工介入来感知异常并触发调查。Operator 模式解决了这个问题——HolmesGPT 在后台 24/7 全天候运行,在客户察觉之前发现问题,并通过 Slack 向你推送修复方案。连接 GitHub 集成 后,它甚至可以自动提交 PR 来修复发现的问题。

虽然 Operator 本身运行在 Kubernetes 中,但健康检查可以查询 Holmes 连接的任何数据源——包括虚拟机、云服务、数据库、SaaS 平台等。

  • 部署验证 — 在应用旁部署健康检查,验证新版本是否正常运行。
  • 定时健康检查 — 持续监控服务并自动捕获回归问题。

功能特性

  • PB 级数据处理:通过服务端过滤、JSON 树遍历以及工具输出转换器,将海量负载排除在上下文窗口之外。
  • 内存安全执行:具备工具级内存限制、大结果流式传输至磁盘以及自动输出预算管理,防止在查询大型可观测性数据集时出现 OOM(内存溢出)崩溃。
  • 深度集成:支持 Prometheus、Grafana、Datadog、Kubernetes 及 更多数据源,并支持任何 REST API。
  • 双向告警集成:从 AlertManager、PagerDuty、OpsGenie 或 Jira 获取告警,并将调查结果回写。
  • 任意 LLM 提供商:支持 OpenAI、Anthropic、Azure、Bedrock、Gemini 等。
  • 无需 Kubernetes:适用于任何基础设施——包括虚拟机、裸金属服务器、云服务或容器。

工作原理

HolmesGPT 使用 Agent 循环 (Agentic Loop) 从多个来源查询实时可观测性数据并识别根本原因。

HolmesGPT 调查演示

🔗 数据源

HolmesGPT 集成了主流的可观测性和云平台。以下是内置的数据源(“工具集”)。你也可以 添加自己的工具集。

数据源说明
AKSAzure Kubernetes Service 集群及节点健康诊断
ArgoCD获取应用、项目及集群的状态、历史记录、Manifest 等
AWSRDS 事件、实例、慢查询日志等 (MCP)
AzureAzure 资源及诊断 (MCP)
Azure SQL数据库健康状况、性能、连接及慢查询
Confluence私有运维手册 (Runbooks) 及文档
Confluence (MCP)私有运维手册及文档 (MCP)
Coralogix检索任何资源的日志
Datadog查询日志、指标及链路追踪
Docker获取镜像、日志、事件、历史记录等
Elasticsearch / OpenSearch查询日志、集群健康、分片及索引诊断
GCPGoogle Cloud Platform 资源 (MCP)
GitHub仓库、Issue 及 Pull Request (MCP)
Grafana查询并分析仪表盘配置及面板
HelmRelease 状态、Chart 元数据及 Value 配置
Internet公共运维手册、社区文档等
贡献者
anSAmpaRmi
项目信息
默认分支master
LicenseApache License 2.0
创建时间2024/5/30
最近更新今天
GAI 中文摘要

HolmesGPT 是一款开源的 CNCF 沙箱项目,旨在通过 AI Agent 技术自动调查生产环境中的故障并定位根因。它能够跨 Kubernetes、虚拟机、云服务及各类数据库等多种基础设施环境运行,帮助 SRE 团队显著缩短事件响应时间。

支持全天候后台运行的操作模式,能够在问题影响用户前自动发现异常并推送修复建议。具备强大的海量数据处理能力,通过内存管理机制有效处理大规模可观测性数据。拥有丰富的工具集成,支持 Prometheus、Grafana、Datadog 等监控工具及各类 REST API。能够实现告警系统的双向联动,支持从外部平台获取任务并回写处理结果。兼容多种大语言模型,支持灵活接入 OpenAI、Anthropic、Azure 等主流 AI 服务商。

适用于需要提升生产环境运维效率、追求自动化故障排查的 SRE 及 DevOps 工程师。该工具非常适合在需要全天候监控复杂分布式系统且希望快速响应告警的场景中使用。