好友
阅读权限 10
听众
最后登录 1970-1-1
本帖最后由 th4c3y 于 2024-4-30 15:08 编辑
采用python正则表达式提取
支持电子发票和数电发票,不支持图片和图片形式的PDF,不支持OFD
更新2.1版本:
增加“项目名称(货物名称)”字段
优化公司名称的正则表达式
------------------------------------------------------------------------------------------------------------------------------
更新2.0版本:
优化错误信息提示方式
一些字段的正则表达式修改
表格内红字标注可能是OCR后的pdf文件(OCR后的文本杂乱无序,正则表达式很难正确抓取)
-------------------------------------------------------------------------------------------------------------------------------
更新1.6版本:
修复了发票税额是“*”导致的字段错位问题(测试发票有限,如果还有问题请评论区提出)
--------------------------------------------------------------------------------------------------------------------------------
更新1.3版本,增加对购买方名称和销售方名称的识别准确率,删除了图标图库。
目前可能会有以下问题:
1、在win10环境上打包的,win7系统可能不支持。
2、非数电发票的备注识别可能会识别不出。
使用场景:
1、避免电子发票重复报销入账(筛选发票号码或者校验码重复值)
2、检查收到的发票纳税人名称和纳税人识别号是否正确
3、根据路径筛选统计报销人电子发票金额(前提:依据报销人将发票分别存入文件夹)
4、OFD文件可以用数科OFD阅读器批量转换成pdf再统一提取
不是专业的,能力有限,只能做到这样了。
链接:https://pan.baidu.com/s/1CHosHesiVE4Lxu5iBt9bhA?pwd=l1xj
提取码:l1xj
免费评分
查看全部评分
发帖前要善用【论坛搜索 】 功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。