吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1958|回复: 27
收起左侧

[原创工具] 做了个不用联网本地使用的paddleocr识别程序,主要是把pdf to txt

  [复制链接]
izisak 发表于 2026-4-21 15:38
最近下载了不少pdf文件,手机看起来费劲,没找到合心意的,就打包了百度的paddleoce(3.2版本),本地使用不用联网,主要是把pdf和图片转变成txt文件。
使用的是PP-OCRv5_mobile_det,为啥用它,电脑破而已,带不起服务端。如果你电脑牛逼,你可以修改dxc.py把模型换成服务端试试。

蓝奏网盘总上传失败,只能百度:https://pan.baidu.com/s/1mk91OEnmnDqpiV3tDD70iw?pwd=1111,下载里面的paddleocr.rar压缩包,解压到任意目录(不要包含中文,根目录最好),双击运行1.bat。
提取码:1111
简单的一批就不做图形界面了,总共就4步,dxc.py是主脚本,你可修改成你需要的功能:

1.拖入文件回车,然后选择提取的页面范围。
2.选择横竖版面,直接回车就是自动识别(如果是竖版的话,是从右往左提取的)。
3.选择放大倍数,如果字体太小导致识别率不高时,可适当放大到1.5,2倍
4.选择线程数,超过10个页面才会出现这个选择,cpu好的可试试6,8。完成后文件保存在程序目录。
1.png 2.png 3.png 4.png 完成界面.png 文件夹内容.png

免费评分

参与人数 6吾爱币 +11 热心值 +6 收起 理由
yanglinman + 1 + 1 谢谢@Thanks!
风之暇想 + 7 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
trieszhang + 1 + 1 鼓励转贴优秀软件安全工具和文档!
ysjd22 + 1 我很赞同!
52leexiaoyi + 1 + 1 谢谢@Thanks!
wuloveyou + 1 + 1 感觉不错,值得测试一下~~~

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

DGHer 发表于 2026-4-21 16:52
微软最近开源了一个markitdown,能转成md文件,也是不错的。要是和ai交互用,md更合适一些。
wooailein 发表于 2026-4-22 10:56
谢谢分享,能本地运行确实很不错,如果能作为插件导入pdf使用就更好了,可以实现一边查看,一边识别,
doglove 发表于 2026-4-21 15:44
andyfky 发表于 2026-4-21 15:57
识别效果还是不错的。
ximenlezi 发表于 2026-4-21 15:58
感谢分享,试一下识别效果
52leexiaoyi 发表于 2026-4-21 16:18
感谢楼主分享
去试试识别效果如何
宜城小站 发表于 2026-4-21 16:20
正好需要这样的文档操作,感谢楼主分享
bigdot 发表于 2026-4-21 16:28
我想问的是,这个与常规AI相比,性能如何?当然AI是大炮打蚊子!
王成 发表于 2026-4-21 16:28
识别效果还是不错!
不依baya 发表于 2026-4-21 16:41

试试识别效果怎么样呢
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - 52pojie.cn ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2026-4-23 14:41

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表