Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.
MinerU 是一个开源的文档解析工具,旨在将 PDF 和 Office 文档等复杂格式转换为高质量的 Markdown 或 JSON 数据。该项目通过先进的布局分析和提取技术,有效解决了非结构化文档在人工智能应用中的数据准备难题。
它支持从 PDF、Word 及 Excel 等多种格式中精准提取文本、表格、图像及复杂排版信息。通过内置的 AI 模型进行深度文档布局分析,确保输出内容具备极高的语义完整度与逻辑结构。该工具针对大语言模型应用场景进行了专门优化,能够直接生成符合 LLM 处理标准的结构化数据。提供高效的数据预处理流水线,能够满足大规模文档自动化的处理需求。
适用于需要进行 RAG 系统开发、大模型训练数据准备的研究人员和开发者。特别适合处理科研论文、技术手册、合同文档等复杂排版文件的自动化解析与数字化工作。