吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6688|回复: 197
上一主题 下一主题
收起左侧

[原创工具] PDF电子发票数据提取至Excel

    [复制链接]
跳转到指定楼层
楼主
th4c3y 发表于 2024-4-5 13:18 回帖奖励
本帖最后由 th4c3y 于 2024-4-18 13:19 编辑

采用python正则表达提取
支持电子发票和数电发票,不支持图片和图片形式的PDF,不支持OFD

更新2.0版本:
优化错误信息提示方式
一些字段的正则表达式修改
表格内红字标注可能是OCR后的pdf文件(OCR后的文本杂乱无序,正则表达式很难正确抓取)

-------------------------------------------------------------------------------------------------------------------------------


更新1.6版本:
修复了发票税额是“*”导致的字段错位问题(测试发票有限,如果还有问题请评论区提出)

--------------------------------------------------------------------------------------------------------------------------------



更新1.3版本,增加对购买方名称和销售方名称的识别准确率,删除了图标图库。

目前可能会有以下问题:
1、在win10环境上打包的,win7系统可能不支持。
2、增加了一些非公司后缀的正则式,但是还是会存有一定误差,楼主的100多张发票已经能够正确识别了。
3、非数电发票的备注识别可能会识别不出。


使用场景:
1、避免电子发票重复报销入账(筛选发票号码或者校验码重复值)
2、检查收到的发票纳税人名称和纳税人识别号是否正确
3、根据路径筛选统计报销人电子发票金额(前提:依据报销人将发票分别存入文件夹)
4、OFD文件可以用数科OFD阅读器批量转换成pdf再统一提取

不是专业的,能力有限,只能做到这样了。
链接:https://pan.baidu.com/s/1CHosHesiVE4Lxu5iBt9bhA?pwd=l1xj
提取码:l1xj

PixPin_2024-04-12_00-10-32.jpg (117.44 KB, 下载次数: 15)

PixPin_2024-04-12_00-10-32.jpg

PixPin_2024-04-05_13-05-27.jpg (32.91 KB, 下载次数: 1)

PixPin_2024-04-05_13-05-27.jpg

PixPin_2024-04-05_13-07-45.jpg (49.31 KB, 下载次数: 0)

PixPin_2024-04-05_13-07-45.jpg

免费评分

参与人数 30吾爱币 +36 热心值 +25 收起 理由
immt + 1 + 1 建议增加一个批量改名功能比如按发票号重命名发票文件,可不改原文件而是复.
冬天冷了多穿点 + 1 + 1 我很赞同!
日月与你 + 1 + 1 热心回复!
HHHT + 1 我很赞同!
ICSMY + 1 谢谢@Thanks!
QKDS + 2 + 1 能不能再弄下其他格式,如图片
tinglan2012 + 1 谢谢@Thanks!
chrisan + 1 谢谢@Thanks!
fancw17 + 1 + 1 我很赞同!
xiaozhiboy + 1 + 1 谢谢@Thanks!
bluerain09 + 1 + 1 谢谢@Thanks!
yjwkqq + 1 + 1 谢谢@Thanks!
leiouzhilei + 1 + 1 热心回复!正是我需要的
yjp732000 + 1 + 1 我很赞同!
hfsp + 1 + 1 鼓励转贴优秀软件安全工具和文档!
sccx + 1 + 1 谢谢@Thanks!
huangqiao + 1 + 1 谢谢@Thanks!
Zatoichi + 1 + 1 谢谢@Thanks!
yangye123 + 1 + 1 我很赞同!
bcmgzht + 1 + 1 谢谢@Thanks!
sonc0345 + 1 热心回复!
xingshizhuyi + 1 + 1 我很赞同!
xueyuyuan + 1 + 1 谢谢@Thanks!
sunlit + 1 + 1 谢谢@Thanks!
aqzt + 1 谢谢@Thanks!
wtwvip + 1 + 1 我很赞同!
thinhorse + 1 + 1 谢谢@Thanks!
gogo2023 + 1 + 1 谢谢@Thanks!
schtg + 1 + 1 谢谢@Thanks!
风之暇想 + 7 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

来自 #
 楼主| th4c3y 发表于 2024-4-15 17:55 |楼主
本帖最后由 th4c3y 于 2024-4-19 09:37 编辑

在win7环境下打包了一份上传到网盘里面了
推荐
pj666a 发表于 2024-4-6 06:51
推荐
nbwww 发表于 2024-4-6 07:40
测试了一下,大部分发票可以正常识别,部分发票销售方 购买方一样了   部分发票报下面的错误
处理文件 D:/Desktop/电子发票下载\dzfp_2493200000002030****_宁波市海******_20240329134625.pdf 时出错: list index out of range

另 楼主方便透露一下识别的原理吗?
4#
iloveshe 发表于 2024-4-6 03:28
这个好,谢谢
5#
heywood 发表于 2024-4-6 07:29
用用看,感谢!
6#
zhaoxuanjun 发表于 2024-4-6 08:02
感谢楼主已经用上了
7#
luobosier 发表于 2024-4-6 08:50
非常感谢的分享,下载试一试
8#
Anruonuannian11 发表于 2024-4-6 08:51
谢谢楼主热心分享
9#
 楼主| th4c3y 发表于 2024-4-6 09:07 |楼主
nbwww 发表于 2024-4-6 07:40
测试了一下,大部分发票可以正常识别,部分发票销售方 购买方一样了   部分发票报下面的错误
处理文件 D:/ ...

如果购买方和销售方不是"公司"结尾的会识别不到,比如自然人和个体工商户,至于下面错误的逻辑判断是:如果pdf读取没有找到发票或者找到开票人这几个字,那么就不认为这是张发票,将不提取里面的数据。
10#
fxd680126 发表于 2024-4-6 09:11
感谢分享!下载试试。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-30 00:11

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表