吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 336|回复: 4
收起左侧

[经验求助] 如何大规模检索PDF中的图像

[复制链接]
godvij 发表于 2024-6-11 16:57
30吾爱币
我的需求是,平时看许多古籍类的PDF工具书,但市面上对古籍转变成文字的支持度不高,因为古籍格式是从上到下,从右到左。能不能假定某些汉字是图像,而通过某个软件实现实现图像找图像?

其实我感觉ADOBE,已经很接近我的需求了,但它始终是以文字对图像,结果转的一踏糊涂。他在转文字后,会问某个图像是不是某些文字。但可选项太低。如果能在这个基础上实现智能化,在加一个索引也能实现我的需求。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

freelive 发表于 2024-6-12 16:41
试试那些AI识别的网站,或许效果更好。
 楼主| godvij 发表于 2024-6-12 18:20
lsbdx 发表于 2024-6-12 19:58
这个工作量有点大,可以使用Tesseract-ocr,用它训练新词库,建立图片与文字的映射关系
具体可以参考:
Tesseract-ocr训练新词库记录及资料整理
https://zhuanlan.zhihu.com/p/691719582

Tesseract-OCR的简单使用与训练
https://blog.csdn.net/weixin_44143876/article/details/134485827
 楼主| godvij 发表于 2024-6-13 05:35
lsbdx 发表于 2024-6-12 19:58
这个工作量有点大,可以使用Tesseract-ocr,用它训练新词库,建立图片与文字的映射关系
具体可以参考:
T ...

这也是个思路,不过走这条路的工作量真不小。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-12-11 22:46

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表