SharpAI/DeepCamera

Open-Source AI Camera Skills Platform, AI NVR & CCTV Surveillance. Local VLM video analysis with Qwen, DeepSeek, SmolVLM, LLaVA, YOLO26. LLM-powered agentic security camera agent — watches, understands, remembers & guards your home via Telegram, Discord or Slack. Pluggable AI skills. OpenAI, Google, Anthropic or local AI. Runs on Mac Mini & AI PC.

aiai-cameraai-nvrcameracctvcomputer-visiondeep-learningface-recognitionhome-assistanthome-securityllama-cppllmlocal-aimachine-learningobject-detectionpythonraspberry-pisecurity-cameravideo-surveillancevlm

GAI 中文摘要

DeepCamera 是一个开源的 AI 摄像头技能平台，旨在通过视觉语言模型（VLM）和本地 AI 推理技术，为传统安防摄像头提供智能化升级。它通过构建智能监控代理，使用户能够实现本地视频分析、场景理解与自动化安防报警，在保障隐私的同时提升家庭或企业的监控效率。

支持 Qwen、DeepSeek、LLaVA 等多种主流视觉语言模型，实现本地化的高精度场景分析与理解。具备目标检测、人脸识别、人员再识别（RE-ID）以及跌倒检测等多种安防核心能力。提供可插拔的 AI 技能架构，允许用户像安装应用程序一样扩展和配置摄像头的智能功能。通过与 Discord、Telegram 或 Slack 集成，实现智能代理式的实时报警与对话交互。完全支持本地化推理运行，兼容 Mac Mini 及各类 AI PC，确保监控数据的隐私与安全。

该项目适用于对家庭或小型企业安防有高隐私要求的用户，通过将其部署在 Mac Mini 或本地 PC 上，用户可以轻松将普通摄像头升级为具备主动感知与智能预警能力的安防系统。

⭐

2.8k

Stars

🔱

445

Forks

👁

Watchers

📋

Issues

JavaScriptMIT创建于 2019/3/5更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

DeepCamera — 开源 AI 摄像头技能平台

DeepCamera 的开源技能为您的摄像头赋予了 AI 能力——包括 VLM 场景分析、目标检测和行人重识别（Re-ID），所有模型均可在本地运行，支持 Qwen、DeepSeek、SmolVLM 和 LLaVA 等模型。该平台构建于成熟的人脸识别、Re-ID、跌倒检测及 CCTV/NVR 监控技术之上，通过现代 AI 技术扩展了这些机器学习能力。所有推理过程均在本地进行，以实现极致的隐私保护。

🛡️ 介绍 SharpAI Aegis — DeepCamera 桌面端应用

通过桌面端应用使用 DeepCamera 的 AI 技能，享受由 LLM 驱动的配置、智能体聊天和智能警报功能——并可通过 Discord / Telegram / Slack 连接到您的移动设备。

SharpAI Aegis 是 DeepCamera 的桌面端伴侣。它利用 LLM 自动设置运行环境、配置摄像头技能并管理整个 AI 流水线，无需手动操作 Docker 或 CLI。它还增加了一个智能体层：具备持久记忆、与摄像头的智能体聊天、AI 视频生成、语音 (TTS) 以及通过 Discord / Telegram / Slack 进行对话式消息推送。

📦 下载 SharpAI Aegis →

🗺️ 路线图

技能架构 — 为所有功能提供可插拔的 SKILL.md 接口
技能商店 UI — 从 Aegis 浏览、安装和配置技能
AI/LLM 辅助技能安装 — 通过 AI 智能体安装和配置社区贡献的技能
GPU / NPU / CPU (AIPC) 感知安装 — 自动检测硬件，安装匹配的框架，并将模型转换为最佳格式
硬件环境层 — 共享 env_config.py，用于在 NVIDIA、AMD、Apple Silicon、Intel 和 CPU 上进行自动检测 + 模型优化
技能开发 — 涵盖 10 个类别的 19 项技能，并随社区贡献积极扩展中

🧩 技能目录

每个技能都是一个独立的模块，拥有自己的模型、参数和通信协议。请参阅技能开发指南和平台参数来构建您自己的技能。

类别	技能	功能描述	状态
检测	`yolo-detection-2026`	实时 80+ 类检测 — 通过 TensorRT / CoreML / OpenVINO / ONNX 自动加速	✅
	`yolo-detection-2026-coral-tpu`	Google Coral Edge TPU — 通过 USB 加速器实现约 4ms 推理 (LiteRT)	✅
	`yolo-detection-2026-openvino`	Intel NCS2 USB / Intel GPU / CPU — 通过 OpenVINO 实现多设备支持 (架构)	🧪
	`face-detection-recognition`	人脸检测与识别 — 从摄像头画面中识别已知人脸	📐
	`license-plate-recognition`	车牌检测与识别 — 从摄像头画面中读取车牌号码	📐
分析	`home-security-benchmark`	用于 LLM 和 VLM 安全性能的 143 项测试评估套件	✅
隐私	`depth-estimation`	实时深度图隐私转换 — 在保留活动信息的同时对摄像头画面进行匿名化处理	✅
分割	`sam2-segmentation`	交互式点击分割（Segment Anything 2） — 像素级精确蒙版、点/框提示、视频跟踪	✅
标注	`dataset-annotation`	AI 辅助数据集标注 — 自动检测、人工审核、支持 COCO/YOLO/VOC 导出，用于自定义模型训练	✅
训练	`model-training`	智能体驱动的 YOLO 微调 — 标注、训练、导出、部署	📐
自动化	`mqtt` · `webhook` · `ha-trigger`	事件驱动的自动化触发器	📐
集成	`homeassistant-bridge`	Home Assistant 摄像头输入 ↔ 检测结果输出	📐

✅ 就绪 · 🧪 测试中 · 📐 计划中

注册表： 所有技能均在 skills.json 中进行索引，以便进行程序化发现。

检测与分割技能

检测和分割技能处理来自摄像头画面的视觉数据——执行目标检测、区域分割或场景分析。所有技能均使用相同的 JSONL stdin/stdout 协议：Aegis 将帧写入共享卷，在 stdin 上发送 frame 事件，并从 stdout 读取 detections。每个检测技能都是可互换的。