吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 17566|回复: 238
上一主题 下一主题
收起左侧

[Windows] 最实用的PDF文档提取工具-MinerU 2.0

    [复制链接]
跳转到指定楼层
楼主
androllen 发表于 2025-7-6 21:39 回帖奖励
本帖最后由 androllen 于 2025-8-27 19:02 编辑

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。

主要功能

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
  • 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
  • 兼容Windows、Linux和Mac平台

快速开始

在线体验MinerU的效果:

本地部署

使用 pip 或 uv 安装

# 将当前 Python 环境中的 pip 工具升级到最新版本
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
# 使用 pip 从阿里云镜像源安装名为 uv 的 Python 包
pip install uv -i https://mirrors.aliyun.com/pypi/simple
# 使用 uv 工具安装或升级名为 mineru 的包,并且安装的是带有 core 可选依赖的版本
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple 

可视化调用

使用gradio webui 或 gradio api调用

# 使用 pipeline/vlm-transformers/vlm-sglang-client 后端
mineru-gradio --server-name 127.0.0.1 --server-port 7860
# 或使用 vlm-sglang-engine/pipeline 后端
mineru-gradio --server-name 127.0.0.1 --server-port 7860 --enable-sglang-engine true

在浏览器中访问 http://127.0.0.1:7860 使用 Gradio WebUI 或访问 http://127.0.0.1:7860/?view=api 使用 Gradio API。

已知问题

  • 阅读顺序基于模型对可阅读内容在空间中的分布进行排序,在极端复杂的排版下可能会部分区域乱序
  • 对竖排文字的支持较为有限
  • 目录和列表通过规则进行识别,少部分不常见的列表形式可能无法识别
  • 代码块在layout模型里还没有支持
  • 漫画书、艺术图册、小学教材、习题尚不能很好解析
  • 表格识别在复杂表格上可能会出现行/列识别错误
  • 在小语种PDF上,OCR识别可能会出现字符不准确的情况(如拉丁文的重音符号、阿拉伯文易混淆字符等)
  • 部分公式可能会无法在markdown中渲染

功能介绍图


普通用户:每天可解析2000页
官网入口:https://mineru.net
github仓库:https://github.com/opendatalab/MinerU
官网下载地址:https://mineru.net/client

离线本地版本

双击 main.exe 启动  
百度链接: https://pan.baidu.com/s/1hYZwIdxCImgnLaqDxjbKNg?pwd=ey8z

123链接:https://www.123865.com/s/BZRBvd-b7Dod?pwd=hp6s

通过网盘分享的文件mineruBat.zip MD5:  0820328fd00f92bf1c1a7c872cfce3de

功能

1.支持包含数学公式的 PDF 转换为 可以复制黏贴的汉字
2.支持包含文本的 PDF 转换为 可以复制黏贴的汉字
3.支持包含图片的 PDF 转换为 可以复制黏贴的汉字
4.支持包含表格的 PDF 转换为 可以复制黏贴的汉字

初始版本与全新版本的区别

版本 空间大小 环境 模型 升级 分享他人使用 必要条件
全新版 68M 需要下载 需要下载 可以 可以 需要联网下载环境与模型
初始版 2.6G 不用下载 不用下载 不可以 不可以 解压即可使用

如果想体验全新版请移步 MinerU 2.0下载地址:https://www.52pojie.cn/thread-2047252-1-1.html

免费评分

参与人数 54吾爱币 +48 热心值 +50 收起 理由
wy188556 + 1 + 1 谢谢@Thanks!
oldmusic + 1 + 1 谢谢@Thanks!
david003 + 1 + 1 谢谢@Thanks!
boykins708 + 1 + 1 我很赞同!
monei + 1 + 1 谢谢@Thanks!
tvrcfdfe + 1 + 1 我很赞同!
asd123yx + 1 + 1 我很赞同!
花心乞丐 + 1 + 1 鼓励转贴优秀软件安全工具和文档!
skygk + 1 + 1 谢谢@Thanks!
gbm15651075073 + 1 谢谢@Thanks!
Alexxxx + 1 + 1 太强了
glfing + 1 谢谢@Thanks!
mochiyouyu + 1 鼓励转贴优秀软件安全工具和文档!
ztysgsg + 1 + 1 谢谢@Thanks!不会用,但还是支持一下
jiang5886 + 1 谢谢@Thanks!
ef9494 + 1 + 1 谢谢@Thanks!
wyx19920425 + 1 + 1 我很赞同!
jb007 + 1 谢谢@Thanks!
guoruihotel + 1 + 1 谢谢@Thanks!
drw888 + 1 + 1 谢谢@Thanks!
mmqk + 1 谢谢@Thanks!
开心熊猫741 + 1 + 1 谢谢@Thanks!
awfyygy520 + 1 + 1 热心回复!
爱不爱破解 + 1 + 1 谢谢@Thanks!
jikic + 1 + 1 热心回复!
mhaitao + 1 + 1 我很赞同!
Kigol + 1 + 1 热心回复!
13388157215 + 1 + 1 用心讨论,共获提升!
kubai + 1 + 1 我很赞同!
ih2hi + 1 + 1 我很赞同!
你好漂亮 + 1 + 1 热心回复!
半度微凉111 + 1 + 1 我很赞同!
leeofwar + 1 + 1 谢谢@Thanks!
h07799486 + 1 + 1 谢谢@Thanks!
greenmood + 1 热心回复!
canty胖胖 + 1 + 1 用心讨论,共获提升!
roadroller + 1 谢谢@Thanks!
抱薪风雪雾 + 1 + 1 谢谢@Thanks!
zjgxzxabc + 1 + 1 谢谢@Thanks!
Mc555 + 1 + 1 谢谢@Thanks!
NEYeee + 1 + 1 谢谢@Thanks!
flyLoveforever + 1 + 1 我很赞同!
mrhs + 2 + 1 鼓励转贴优秀软件安全工具和文档!
ninggo + 1 + 1 谢谢@Thanks!
leon8176 + 1 + 1 谢谢@Thanks!
linksym + 1 + 1 谢谢@Thanks!
daoye9988 + 1 + 1 热心回复!
shengruqing + 1 我很赞同!
ospwd + 1 + 1 谢谢@Thanks!
okyz111 + 1 + 1 谢谢@Thanks!
Shengkissyou + 1 谢谢@Thanks!
ckloder + 1 + 1 谢谢@Thanks!
hel4755 + 1 谢谢@Thanks!
anonyman + 1 + 1 识别率可真高啊,分数也能识别出来,牛

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

推荐
youngnku 发表于 2025-7-6 22:40
有大佬帮忙做个整合包么
推荐
 楼主| androllen 发表于 2025-7-6 21:50 |楼主
本帖最后由 androllen 于 2025-7-17 10:37 编辑
hwb603 发表于 2025-7-6 21:41
好工具,感谢分享。

可以试试,拿pdf文档解析一下,效果还是可以的,同时部署到自己的服务器上,如果使用NPU加速的话更快解析
.
本地安装包 MinerU 2.0 CPU 版本 modescope模型 已上传,欢迎下载试用
.
4#
fnckyon2014 发表于 2025-7-6 21:59
5#
xixicoco 发表于 2025-7-6 22:26
这个不错啊,以后没有pdf了,都是markdown
6#
doubleA 发表于 2025-7-6 22:32
很有实力,感谢分享
7#
robertclarke 发表于 2025-7-6 23:01
pdf这个工具很好用
8#
jerryowner 发表于 2025-7-6 23:02
学习了 狠帮狠强大
9#
雾都孤尔 发表于 2025-7-6 23:29
识别率还是挺不错的,不用再为一些特殊符号的识别转换发愁了。感谢分享。
10#
mjollt 发表于 2025-7-7 00:09
好东西..........
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - 52pojie.cn ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2026-7-5 11:57

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表