吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 7092|回复: 216
收起左侧

[原创工具] PDF电子发票数据提取至Excel【4-30更新】

    [复制链接]
th4c3y 发表于 2024-4-5 13:18
本帖最后由 th4c3y 于 2024-4-30 15:08 编辑

采用python正则表达式提取
支持电子发票和数电发票,不支持图片和图片形式的PDF,不支持OFD



更新2.1版本:
增加“项目名称(货物名称)”字段
优化公司名称的正则表达式


------------------------------------------------------------------------------------------------------------------------------

更新2.0版本:
优化错误信息提示方式
一些字段的正则表达式修改
表格内红字标注可能是OCR后的pdf文件(OCR后的文本杂乱无序,正则表达式很难正确抓取)

-------------------------------------------------------------------------------------------------------------------------------


更新1.6版本:
修复了发票税额是“*”导致的字段错位问题(测试发票有限,如果还有问题请评论区提出)

--------------------------------------------------------------------------------------------------------------------------------



更新1.3版本,增加对购买方名称和销售方名称的识别准确率,删除了图标图库。

目前可能会有以下问题:
1、在win10环境上打包的,win7系统可能不支持。
2、非数电发票的备注识别可能会识别不出。


使用场景:
1、避免电子发票重复报销入账(筛选发票号码或者校验码重复值)
2、检查收到的发票纳税人名称和纳税人识别号是否正确
3、根据路径筛选统计报销人电子发票金额(前提:依据报销人将发票分别存入文件夹)
4、OFD文件可以用数科OFD阅读器批量转换成pdf再统一提取

不是专业的,能力有限,只能做到这样了。

链接:https://pan.baidu.com/s/1CHosHesiVE4Lxu5iBt9bhA?pwd=l1xj
提取码:l1xj
PixPin_2024-04-30_15-02-38.jpg
PixPin_2024-04-30_15-03-54.jpg

免费评分

参与人数 32吾爱币 +37 热心值 +27 收起 理由
davidq + 1 热心回复!
lyqjqly + 1 + 1 我很赞同!
immt + 1 + 1 建议增加一个批量改名功能比如按发票号重命名发票文件,可不改原文件而是复.
冬天冷了多穿点 + 1 + 1 我很赞同!
日月与你 + 1 + 1 热心回复!
HHHT + 1 我很赞同!
ICSMY + 1 谢谢@Thanks!
QKDS + 2 + 1 能不能再弄下其他格式,如图片
tinglan2012 + 1 谢谢@Thanks!
chrisan + 1 谢谢@Thanks!
fancw17 + 1 + 1 我很赞同!
xiaozhiboy + 1 + 1 谢谢@Thanks!
bluerain09 + 1 + 1 谢谢@Thanks!
yjwkqq + 1 + 1 谢谢@Thanks!
leiouzhilei + 1 + 1 热心回复!正是我需要的
yjp732000 + 1 + 1 我很赞同!
hfsp + 1 + 1 鼓励转贴优秀软件安全工具和文档!
sccx + 1 + 1 谢谢@Thanks!
huangqiao + 1 + 1 谢谢@Thanks!
Zatoichi + 1 + 1 谢谢@Thanks!
yangye123 + 1 + 1 我很赞同!
bcmgzht + 1 + 1 谢谢@Thanks!
sonc0345 + 1 热心回复!
xingshizhuyi + 1 + 1 我很赞同!
xueyuyuan + 1 + 1 谢谢@Thanks!
sunlit + 1 + 1 谢谢@Thanks!
aqzt + 1 谢谢@Thanks!
wtwvip + 1 + 1 我很赞同!
thinhorse + 1 + 1 谢谢@Thanks!
gogo2023 + 1 + 1 谢谢@Thanks!
schtg + 1 + 1 谢谢@Thanks!
风之暇想 + 7 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| th4c3y 发表于 2024-4-15 17:55
本帖最后由 th4c3y 于 2024-4-19 09:37 编辑

在win7环境下打包了一份上传到网盘里面了
pj666a 发表于 2024-4-6 06:51
immt 发表于 2024-4-30 23:07
本帖最后由 immt 于 2024-4-30 23:21 编辑
th4c3y 发表于 2024-4-30 15:10
上传了新版本了,试一下是否能识别到

测试通过,已经能识别到由银行开出的电子发票开票方名称,好评。
昨天的建议不知道看到没有,重复一次:增加批量更名的功能,简单的就是直接用发票号代替原文件名,如果能增加自选重命名元素就更好了——比如在发票号、开票日期、销售方名称、购买方名称(能自定义简称更好)、金额这几个里面选择一个或多个重命名,元素之间用空格或“-”符号连接。重命名的文件保存到新位置,不影响原文件。
另一个建议是选择了发票文件夹后,能把发票文件夹自动带入默认保存位置,需要保存到其他位置的才去点选择保存文件夹。
软件很好,比某收费软件强,感谢作者
iloveshe 发表于 2024-4-6 03:28
这个好,谢谢
heywood 发表于 2024-4-6 07:29
用用看,感谢!
nbwww 发表于 2024-4-6 07:40
测试了一下,大部分发票可以正常识别,部分发票销售方 购买方一样了   部分发票报下面的错误
处理文件 D:/Desktop/电子发票下载\dzfp_2493200000002030****_宁波市海******_20240329134625.pdf 时出错: list index out of range

另 楼主方便透露一下识别的原理吗?
zhaoxuanjun 发表于 2024-4-6 08:02
感谢楼主已经用上了
luobosier 发表于 2024-4-6 08:50
非常感谢的分享,下载试一试
Anruonuannian11 发表于 2024-4-6 08:51
谢谢楼主热心分享
 楼主| th4c3y 发表于 2024-4-6 09:07
nbwww 发表于 2024-4-6 07:40
测试了一下,大部分发票可以正常识别,部分发票销售方 购买方一样了   部分发票报下面的错误
处理文件 D:/ ...

如果购买方和销售方不是"公司"结尾的会识别不到,比如自然人和个体工商户,至于下面错误的逻辑判断是:如果pdf读取没有找到发票或者找到开票人这几个字,那么就不认为这是张发票,将不提取里面的数据。
fxd680126 发表于 2024-4-6 09:11
感谢分享!下载试试。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-2 10:55

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表