llama-farm/llamafarm

Deploy any AI model, agent, database, RAG, and pipeline locally or remotely in minutes

aiaiprojectchatgptclaudeedgeedge-computingfinetuning-llmsgemmagrokllama3llama4mistralmlopsmodelsopenaiprompt-engineeringqwenragsora

GAI 中文摘要

LlamaFarm 是一个开源的边缘 AI 平台，旨在帮助用户在本地硬件上部署各类 AI 模型、智能体、数据库及 RAG 流水线。它解决了企业级 AI 应用对云端依赖的问题，让用户无需支付 API 费用即可在本地完成数据处理，确保了极高的隐私安全性。

支持构建基于文档的 RAG 应用以及执行 OCR 与结构化数据提取任务。提供文本分类器训练与异常检测功能，支持处理批量或流式数据。兼容多种模型运行时，能够无缝切换 Ollama、vLLM 或本地 GGUF 模型。集成模型上下文协议（MCP），支持连接外部工具以增强模型交互能力。具备硬件优化特性，可自动适配 Apple Silicon、NVIDIA 和 AMD 等平台的 GPU 或 NPU 加速。

该项目适用于对隐私保护有极高要求、希望降低长期 API 调用成本的个人开发者及企业，特别适合在本地环境构建私有知识库、自动化文档处理及离线 AI 应用场景。

⭐

830

Stars

🔱

Forks

👁

Watchers

📋

Issues

PythonApache-2.0创建于 2025/7/9更新于昨天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

LlamaFarm - 面向大众的边缘 AI

在你自己的硬件上实现企业级 AI 能力，无需云端支持。

LlamaFarm 是一个完全运行在你本地硬件上的开源 AI 平台。你可以构建 RAG 应用、训练自定义分类器、进行异常检测并处理文档——所有操作都在本地完成，确保完全的隐私保护。

🔒 完全隐私 — 你的数据永远不会离开你的设备
💰 零 API 成本 — 使用开源模型，无需支付每 token 费用
🌐 支持离线 — 模型下载完成后，无需联网即可使用
⚡ 硬件优化 — 在 Apple Silicon、NVIDIA 和 AMD 平台上自动进行 GPU/NPU 加速

桌面端应用程序下载

即刻上手，无需命令行：

平台	下载
Mac (通用版)	下载
Windows	下载
Linux (x86_64)	下载
Linux (ARM64)	下载

你能构建什么？

能力	描述
RAG (检索增强生成)	摄入 PDF、文档、CSV 并通过 AI 进行查询
自定义分类器	使用 SetFit 通过 8-16 个示例训练文本分类器
异常检测	提供 12 种以上用于批量和流式异常检测的算法
工具调用 (MCP)	通过 Model Context Protocol 将模型连接到外部工具
OCR 与文档提取	从图像和 PDF 中提取文本和结构化数据
命名实体识别 (NER)	识别人员、组织和地理位置信息
多模型运行时	在 Ollama、OpenAI、vLLM 或本地 GGUF 模型间切换

视频演示 (90秒): https://youtu.be/W7MHGyN0MdQ

快速上手

选项 1：桌面应用程序

下载并运行上述的桌面应用程序。无需额外配置。

选项 2：CLI + 开发模式

安装 CLI

macOS / Linux:

curl -fsSL https://raw.githubusercontent.com/llama-farm/llamafarm/main/install.sh | bash

Windows (PowerShell):

irm https://raw.githubusercontent.com/llama-farm/llamafarm/main/install.ps1 | iex

或者直接从 Releases 下载。

创建并运行项目

lf init my-project      # 生成 llamafarm.yaml
lf start                # 启动服务并打开 Designer UI

与 AI 对话

lf chat                           # 交互式对话
lf chat "Hello, LlamaFarm!"       # 发送单条消息

Designer Web 界面可在 http://localhost:14345 访问。

选项 3：从源码开发

git clone https://github.com/llama-farm/llamafarm.git
cd llamafarm

# 全局安装 Nx 并初始化工作区
npm install -g nx
nx init --useDotNxInstallation --interactive=false  # 首次克隆时需要

# 启动所有服务（分别在不同终端运行）
nx start server           # FastAPI 服务器 (端口 14345)
nx start rag              # 用于文档处理的 RAG worker
nx start universal-runtime # ML 模型、OCR、Embedding (端口 11540)

架构

LlamaFarm 由三个主要服务组成：

服务	端口	用途
Server	14345	FastAPI REST API、Designer Web UI、项目管理
RAG Worker	-	用于异步文档处理的 Celery worker
Universal Runtime	11540	ML 模型推理、Embedding、OCR、异常检测

所有配置均位于 llamafarm.yaml 中——没有分散的设置或隐藏的默认值。

运行时选项

Universal Runtime (推荐)

Universal Runtime 提供对 HuggingFace 模型的访问以及专门的 ML 能力：

文本生成 - 任何 HuggingFace 文本模型
Embeddings - sentence-transformers 及其他 embedding 模型
OCR - 从图像/PDF 中提取文本 (Surya, EasyOCR, PaddleOCR, Tesseract)
文档提取 - 通过视觉模型处理表单、发票、收据
文本分类 - 通过 SetFit 使用预训练或自定义模型
命名实体识别 (NER) - 提取人员、组织等信息