opendatalab/MinerU

Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.

ai4sciencedocument-analysisdocxextract-datalayout-analysisocrparserpdfpdf-converterpdf-extractor-llmpdf-extractor-pretrainpdf-extractor-ragpdf-parserpptxpythonxlsx

GAI 中文摘要

MinerU 是一个开源的文档解析工具，旨在将 PDF 和 Office 文档等复杂格式转换为高质量的 Markdown 或 JSON 数据。该项目通过先进的布局分析和提取技术，有效解决了非结构化文档在人工智能应用中的数据准备难题。

它支持从 PDF、Word 及 Excel 等多种格式中精准提取文本、表格、图像及复杂排版信息。通过内置的 AI 模型进行深度文档布局分析，确保输出内容具备极高的语义完整度与逻辑结构。该工具针对大语言模型应用场景进行了专门优化，能够直接生成符合 LLM 处理标准的结构化数据。提供高效的数据预处理流水线，能够满足大规模文档自动化的处理需求。

适用于需要进行 RAG 系统开发、大模型训练数据准备的研究人员和开发者。特别适合处理科研论文、技术手册、合同文档等复杂排版文件的自动化解析与数字化工作。

⭐

66.0k

Stars

🔱

5.6k

Forks

👁

245

Watchers

📋

Issues