braxiong 发表于 2020-12-12 11:54

python将电子发票信息提取至excel出错

如题,项目地址以及源码在这:https://github.com/yooongchun/Invoice2Excel
我是网络专业的,对代码一窍不通,恳求各位大神相助,你有网络问题也欢迎来问我

因为老婆工作需要,要批量处理几千份发票,将内容导出至excel,在网上搜到的类似的源码,但是该作者对应的是车费的发票,
而我是普通的发票,内容项目不一样;而且源代码运行需要输入密码,虽然密码就在源码中,可每次运行前输入也很麻烦。

所以我已经作出以下小修改:修改了抓取的字段,还有把密码验证改成true了,并且把密码框去掉
以下是我更改完后的源码,顺带把pdfminer的字体编码包也打包了 下载地址:braxiong.f3322.net:10052/1.zip

最后满怀信心点击运行结果绝大多数内容没有被识别出来,调试里一大堆warm,继续查证发现好像是发票内文字的编码格式原因,
好像需要对插件加入转换的格式然后进行重编译安装才可以,可是我照着输入命令没有反应,求求大神帮忙让这个程序跑下去吧
我真的已经没辙了
问题对应的解决办法参考链接:
https://zhuanlan.zhihu.com/p/29410051

andrew2018 发表于 2020-12-12 12:38

本帖最后由 andrew2018 于 2020-12-12 12:53 编辑

去Python的第三方库官网里找找看,能否找到合适的转换成excel的.py文件。https://pypi.org/
先要选择相对应的版本,然后会列出有关的py文件。
仅供参考。

下载地址显示无法访问。

大兵马元帅 发表于 2020-12-12 13:26

应该是出现了好多warn,不是warm{:1_911:}

jefflo 发表于 2020-12-12 13:38

https://www.yooongchun.com/2019/12/18/invoiceextractor/看作者的博客,有思路,如果发票样式不一致需要重新划定取字符的区域。

n3iuarem3t 发表于 2020-12-12 15:13

过段时间再研究python

braxiong 发表于 2020-12-12 15:42

本帖最后由 braxiong 于 2020-12-12 15:47 编辑

andrew2018 发表于 2020-12-12 12:38
去Python的第三方库官网里找找看,能否找到合适的转换成excel的.py文件。https://pypi.org/
先要选择相对 ...
{:301_971:}我现在就差最后一步,就是把这些文字编码添加上去这个pdfminer插件上,然而就是不会
我在外网测试了下载链接没有问题的,楼下也有人下载成功了,建议你清理一下dns缓存再访问试试

braxiong 发表于 2020-12-12 15:43

大兵马元帅 发表于 2020-12-12 13:26
应该是出现了好多warn,不是warm

{:301_971:}哈哈哈哈我就说总觉得哪里怪怪的

braxiong 发表于 2020-12-12 15:47

jefflo 发表于 2020-12-12 13:38
https://www.yooongchun.com/2019/12/18/invoiceextractor/看作者的博客,有思路,如果发票样式不一致需要 ...

发票样式是一样的,只是字段会有变化,所以只需改源码里抓取的字段就好了,现在的问题是能抓出来,但是抓取的插件没有这些文字编码导致无法正常导出文字{:301_999:}

lijt16 发表于 2020-12-12 20:09

也不给你的发票样式。

rsnodame 发表于 2020-12-12 22:32

{:301_1009:} 看了github上requirement是
pandas==1.0.3
pdfplumber==0.5.18

楼主要不检查一下?
页: [1] 2
查看完整版本: python将电子发票信息提取至excel出错