RAG for Local LLM, chat with PDF/doc/txt files, ChatPDF. 纯原生实现RAG功能,基于本地LLM、embedding模型、reranker模型实现,支持GraphRAG,无须安装任何第三方agent库。
ChatPDF是一个基于Python构建的轻量级本地RAG(检索增强生成)工具,旨在为PDF、Doc、Txt等多种文档提供私有化的高精度知识问答解决方案。该项目采用纯原生代码实现,不依赖复杂的第三方Agent库,并深度整合了本地LLM、Embedding模型及重排序模型,甚至支持轻量版GraphRAG。
项目核心功能包括:支持多种主流LLM(如Qwen、DeepSeek)及Embedding模型;通过jieba分词与RankBM25结合语义向量实现混合检索,显著优化召回准确率;引入Reranker模型对检索候选集进行二次精炼,并支持上下文窗口扩展;内置基于Gradio的Web交互界面,支持流式对话体验;全面兼容PDF、docx、markdown等常见办公文件格式。
该项目适用于对数据隐私有极高要求、希望在本地私有服务器部署知识库问答系统的企业或个人开发者。它特别适合科研人员、文档管理需求者或希望探索本地化RAG技术实现细节的技术爱好者进行集成与二次开发。