好友
阅读权限30
听众
最后登录1970-1-1
|
本帖最后由 lostlosin 于 2026-3-26 12:48 编辑
报送各类台账扫描版,虽然已经分类扫描,但原始文件存在部分单面、部分双面,扫描时都采用双面扫描,后期再删除空白页,任务急的时候很繁琐,做了这个可批量删除PDF扫描文档中出现的空白页,操作简单,看图即可,默认文件保存在原文件所在的new文件夹下
重要文件请再次人工校对Excel信息中的空白页数据,谨防误删!
百度网盘:https://pan.baidu.com/s/15oPoUNQTXXUt2bYD4mFVXA?pwd=wycm
提取码:wycm
参数说明:
1、阈值(正常厚度纸张扫描的pdf文档,采用默认参数即可):
像素占比阈值=非纯白色像素数量÷整页总像素数量的上限值
文本长度阈值=从PDF页中提取到的有效文本字符数的上限值
像素占比阈值(仅供参考,我实际工作中的采用默认值即可,建议先采用默认值处理,观察效果再做调整):
轻微透印:1%–2%
中度透印:3%–5%
重度透印/盖章透印:6%–10%
文本长度阈值:设为3–10,过滤透印产生的零散字符。
阈值越大→越能把“带透印、有点脏”的空白页删掉。
2、高斯去噪:可以使透印痕迹更加均匀,便于后续二值化处理时将其与真正的文字区分开,去噪后,透印区域变得更平滑,非白像素占比计算更准确。
3、二值化:用240的高阈值,灰度值≥240的像素会被设为255(纯白),灰度值<240的像素会被设为0(纯黑),将接近白色的浅灰色(透印文字通常是浅灰色)也视为白色背景,只有明显深色的内容才会被保留。
重要文件请再次人工校对Excel信息中的空白页数据,谨防误删!以下情况可能导致误删:
-页面只有1-3个字符(如页码"5")
-且这些字符很小或很淡
-像素占比≤2%
建议对于纯文字PDF:
-文本长度阈值建议设置为3-5
-如果担心误删页码页,可以提高像素阈值到3-5%
-或者关闭二值化,使用灰度模式判定
-----------------------------------------------
1、看到一些反馈,手写字数较少、渗透一般的页面我这里测试都是正常,我这里用纸是80g的A4,测试页面3号字体,常见各种粗细字体,盖章也测试了深浅,扫描仪惠普ScanJet Enterprise Flow 5000 s4,黑白、彩色,200dpi、600dpi都做过测试,都是正常的,默认值即可去除空白页
2、手写字数较多、渗透比较强的页面需要再次处理
|
免费评分
-
查看全部评分
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|
|