© 2026FindAgent  · @simprr
返回列表
o

opendatalab/MinerU

Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.

ai4sciencedocument-analysisextract-datalayout-analysisocrparserpdfpdf-converterpdf-extractor-llmpdf-extractor-pretrainpdf-extractor-ragpdf-parserpython
⭐

57.4k

Stars

🔱

4.8k

Forks

👁

225

Watchers

📋

190

Issues

PythonAGPL-3.0创建于 2024/2/29更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

MinerU

stars forks open issues issue resolution PyPI version PyPI - Python Version Downloads Downloads OpenDataLab

MinerU 是一款功能强大的工具,旨在将复杂的文档(如 PDF)转换为适合 LLM 处理的 Markdown 或 JSON 格式,从而赋能你的 Agentic 工作流。


概述

MinerU 致力于解决复杂文档(尤其是科学文献)的解析难题。它通过深度学习模型实现版面分析、公式识别和表格提取,能够将 PDF 内容高效转化为结构化数据,以便直接接入大语言模型(LLM)进行分析。

主要特性

  • 高精度版面分析:准确识别段落、标题、表格、图片和公式。
  • 公式识别:支持将数学公式转换为 LaTeX 格式。
  • 表格提取:能够将复杂表格转换为 Markdown 或 JSON 格式。
  • LLM 就绪:输出内容高度结构化,便于 RAG(检索增强生成)和 Agent 使用。
  • 易于使用:支持 CLI(命令行接口)和 Python API。

快速上手

环境要求

  • Python >= 3.10
  • CUDA 支持(推荐用于 GPU 加速)

安装

你可以通过 pip 直接安装:

pip install mineru

使用示例

命令行工具 (CLI)

使用以下命令解析 PDF 文件:

minerufy /path/to/your/pdf

Python API

在 Python 代码中使用:

from mineru.api import MinerU

# 初始化解析器
parser = MinerU()

# 解析文档
result = parser.process("/path/
贡献者
mdgSFdpLi1
项目信息
默认分支master
LicenseGNU Affero General Public License v3.0
创建时间2024/2/29
最近更新今天
GAI 中文摘要

MinerU 是一个高性能的文档解析工具,旨在将复杂的 PDF 等文档转换为高质量的 Markdown 或 JSON 格式。该项目通过先进的布局分析与 OCR 技术,有效解决了文档数据在 LLM 应用中难以提取和处理的痛点。

它能够精确识别并解析 PDF 文档中的标题、正文、表格、图片及公式等多种元素。支持将解析结果输出为适合大模型训练或推理的结构化 Markdown 和 JSON 数据格式。内置了强大的布局分析模型,能够准确处理学术论文、报表等具有复杂排版的文档。通过模块化设计实现了高效的数据处理流程,满足从单机实验到大规模文档预处理的各类需求。

该工具适用于需要构建 RAG 系统、进行大模型预训练数据清洗以及自动化文档信息提取的开发者和科研人员。无论是处理海量 PDF 文档还是解析高难度专业文献,MinerU 都能为智能 Agent 工作流提供稳健的数据支持。