Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.
MinerU 是一个高性能的文档解析工具,旨在将复杂的 PDF 等文档转换为高质量的 Markdown 或 JSON 格式。该项目通过先进的布局分析与 OCR 技术,有效解决了文档数据在 LLM 应用中难以提取和处理的痛点。
它能够精确识别并解析 PDF 文档中的标题、正文、表格、图片及公式等多种元素。支持将解析结果输出为适合大模型训练或推理的结构化 Markdown 和 JSON 数据格式。内置了强大的布局分析模型,能够准确处理学术论文、报表等具有复杂排版的文档。通过模块化设计实现了高效的数据处理流程,满足从单机实验到大规模文档预处理的各类需求。
该工具适用于需要构建 RAG 系统、进行大模型预训练数据清洗以及自动化文档信息提取的开发者和科研人员。无论是处理海量 PDF 文档还是解析高难度专业文献,MinerU 都能为智能 Agent 工作流提供稳健的数据支持。