吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 21508|回复: 388
上一主题 下一主题
收起左侧

[原创工具] 【2024-03-25更新】批量转双层PDF v2.4

    [复制链接]
跳转到指定楼层
楼主
yang4384 发表于 2023-6-26 21:56 回帖奖励
本帖最后由 yang4384 于 2024-4-1 11:40 编辑

软件功能:可以批量将文件夹内的PDF文件OCR成双层PDF文档,方便检索复制。

识别引擎用的是PP飞桨,这个好像是百度的东西,对中文的识别率感觉比其它的引擎好

我用的是打包好的组件,作者跟[color=var(--color-accent-fg)]Umi-OCR 批量图片转文字工具是同一个人~,可以离线使用

一些老旧的CPU和32位系统可能无法使用
识别效果:因为字体大小的问题,框选的位置可能会跟实际有点误差,像下面的图片,没框到那行的全部,但实际已经识别完了,粘贴出来的是整行文本

由于文件比较大,连带识别引擎和模型压缩后还有一百多M,所以传百度云了。

有人说不能识别英文,我测试了一下没啥问题

2023-07-01  更新
1.加了一个页的进度条 方便看进度
2.加了空白页的异常处理(有些人说点了没反应可能是因为这个)
2023-08-09
1.修复OCR组件在软件退出后还保留后台的问题
2023-11-07更新

本次2.1版本的主要更新内容如下:
1、换了个新界面
2、支持覆盖原文件、搜索子文件夹
3、可以排除掉上次OCR的文件
4、优化了文字的位置、应该不会再出现超出文档范围的文本了
5、支持保存到指定文件夹
6、OCR组件更新,作者说支持win7 64 需要vc运行库
如果复制文本时出现大量空格,建议换个软件打开(我的电脑就出现过2345看图王复制有空格,Microsoft Edge浏览器复制没空格)

2024-03-25 52专版直接更新到2.4啦 以下是更新日志

#2.2 2023-12-04
#打包上自定义字体
#优化异常捕获的处理
#选择指定路径时,输出的文件保持原目录结构
#增加引擎报错
#修复覆盖文件时错误的问题
#2.2.1 2023-12-07
#修复一个添加页面错误的bug
#修复页面旋转导致的错误
#2.2.1 2024-02-28
#GUI调整 优化进度细节
#修复特殊文件名的问题
#2.4 2024-03-25
#增加语言选项,还有一个高精度模型(这个模型比较大,识别起来速度慢很多)
#优化页面解析
#增加混合模式
2.4版本借鉴了hiroi-sora大佬的 【间隙·树·排序算法】,对OCR结果或PDF提取的文本进行版面分析,按人类阅读顺序进行排序。
现在能够获得的更好的复制效果。
52专版打包了高精度模型,所以体积大很多。如果不需要这个模型,可以下载两百多兆的版本。

下载链接.txt

73 Bytes, 下载次数: 2321, 下载积分: 吾爱币 -2 CB

免费评分

参与人数 56吾爱币 +62 热心值 +52 收起 理由
chj01 + 1 + 1 用心讨论,共获提升!
大大连连 + 1 + 1 谢谢@Thanks!
fancw17 + 1 + 1 我很赞同!
yalin + 1 + 1 我很赞同!
sabringla + 1 谢谢@Thanks!
wuaizhuang + 1 + 1 用心讨论,共获提升!
hm1209 + 1 + 1 谢谢@Thanks!
wopklsxx + 1 + 1 我很赞同!
tianlovetian + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
alexxi0571 + 1 谢谢@Thanks!
miniport + 1 谢谢@Thanks!
15972927275 + 1 + 1 为什么我选择路径一片空白,不能找到要转的PDF
greataolu + 1 + 1 谢谢@Thanks!
cxx0515 + 1 + 1 建议来个单文件的
lixu1999 + 1 + 1 谢谢@Thanks!
同醉否 + 1 + 1 我很赞同!
wsabenzhu + 1 + 1 希望继续更新
阴凉 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
kataroka + 1 最近在制作电子书,很有用。
rikka + 1 + 1 亲测英文文献也能准确识别,解决燃眉之急,感谢楼主!
dyalex + 1 + 1 谢谢@Thanks!
李锐智 + 1 + 1 谢谢@Thanks!
holidaymffl + 1 + 1 谢谢@Thanks!
henancappucc + 1 + 1 我很赞同!
junfkbg68 + 1 谢谢@Thanks!
chao8709 + 1 + 1 热心回复!
wub88 + 1 + 1 谢谢@Thanks!
snow653 + 1 + 1 我很赞同!
kw1993 + 1 + 1 谢谢@Thanks!
dglaobing + 1 + 1 谢谢@Thanks!
hahj0113 + 1 + 1 我很赞同!
shenquanwusheng + 1 热心回复!
nimenhao + 1 + 1 热心回复!
eureka0007 + 1 + 1 热心回复!
莫奇 + 1 + 1 我很赞同!
guoruihotel + 1 + 1 谢谢@Thanks!
bmwgtr + 1 + 1 我很赞同!
hihand2000 + 1 + 1 我很赞同!
Grid + 1 旧版没反应,用不了,新版下载链接没更新
summcat + 1 + 1 我很赞同!
fenger313 + 1 谢谢@Thanks!
dtchiwei + 1 + 1 谢谢@Thanks!
平淡最真 + 4 + 1 热心回复!
webdav01 + 1 + 1 神器啊神器
风之暇想 + 7 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
306966576 + 1 + 1 谢谢@Thanks!
supernox + 1 + 1 我很赞同!
抱薪风雪雾 + 1 + 1 谢谢@Thanks!
maoxiaole1992 + 1 + 1 我很赞同!
garyqingsong + 1 + 1 谢谢@Thanks!
ifdess + 1 + 1 热心回复!
powehi + 1 + 1 谢谢@Thanks!
superlaomao + 2 + 1 谢谢@Thanks!
yanglinman + 1 + 1 谢谢@Thanks!
mapshadow + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
Ychurch + 1 + 1 谢谢@Thanks!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

来自 #
 楼主| yang4384 发表于 2023-6-27 07:38 |楼主
lsj7890 发表于 2023-6-26 23:39
开始OCR后没反应

点开始后,会加载引擎,大概一两秒,有的电脑可能慢一点。进度条变空说明开始了,完成时间取决于pdf数量和大小,可以先找一页测试一下。我自己测试没问题
来自 #
 楼主| yang4384 发表于 2023-7-5 12:53 |楼主
推荐
mapshadow 发表于 2023-6-26 22:08
双层pdf指的就是文件上层是原来的图像,下层是识别出来的结果,双层pdf是将文件通过ocr识别、纠偏、去污来完成的。这样可以支持复制、选择、检索等等其他功能,还可以100%的保留原始的版面效果。
推荐
 楼主| yang4384 发表于 2024-3-6 20:02 |楼主
pplseru 发表于 2024-3-1 21:48
识别率怎么样,飞将的引擎是要购买的吗

飞桨识别率还是不错的  免费
推荐
 楼主| yang4384 发表于 2023-12-8 18:54 |楼主
greataolu 发表于 2023-12-8 08:13
请问两个引擎的区别是什么?

电脑配置高的选默认引擎,第二个对低配置机器比较友好
推荐
xiangdong 发表于 2023-6-27 00:57
感谢分享,下载收藏
推荐
xiaowei0249 发表于 2023-6-26 22:21
感谢分享
推荐
lsj7890 发表于 2023-6-26 23:39
开始OCR后没反应
推荐
esclong 发表于 2024-6-25 15:40
网盘提取码错误
4#
adamfh 发表于 2023-6-26 22:00
支持下。
5#
wj1314520 发表于 2023-6-26 22:00
大佬,双层PDF跟PDF有啥不一样吗?
头像被屏蔽
6#
moruye 发表于 2023-6-26 22:03
提示: 作者被禁止或删除 内容自动屏蔽
7#
 楼主| yang4384 发表于 2023-6-26 22:07 |楼主
wj1314520 发表于 2023-6-26 22:00
大佬,双层PDF跟PDF有啥不一样吗?

对于图片类型的PDF文档,比如扫描件制作双层后方便检索复制
8#
 楼主| yang4384 发表于 2023-6-26 22:07 |楼主
wj1314520 发表于 2023-6-26 22:00
大佬,双层PDF跟PDF有啥不一样吗?

对于图片类型的PDF文档,比如扫描件制作双层后方便检索复制
9#
intlhz 发表于 2023-6-26 22:16
不知道识别率怎么样
10#
seawaycao 发表于 2023-6-26 22:21
谢谢分享!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-12-12 13:47

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表