吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 342|回复: 21
上一主题 下一主题
收起左侧

[求助] 有没有大佬,知道怎么提取多个pdf里面的首页的文字

  [复制链接]
跳转到指定楼层
楼主
c672569644 发表于 2024-11-27 19:46 回帖奖励
我想要提取多个不同pdf首页的特定的准确的文字和数字,然后导出到一个表格里面。下面有提取的页面的图片,需要能够快速的提取不需要等很久那种,有没有软件能够实现或者说是什么方法能实现的。

image.png (74.71 KB, 下载次数: 0)

image.png

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
trumps30 + 1 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

沙发
yunpeng0543 发表于 2024-11-27 19:55
最好有样本文件
3#
 楼主| c672569644 发表于 2024-11-27 20:00 |楼主

就是一个很多页的pdf 只需要首页,然后这个pdf可以复制的
4#
wuliaodelaohu 发表于 2024-11-27 20:01
5#
jidesheng6 发表于 2024-11-27 20:04
你这基本上属于客制化了,自己写软件,或者找人写。只有这个方案。
6#
丨丶落尘 发表于 2024-11-27 20:11
苦逼的投标人
7#
lzladui 发表于 2024-11-27 20:14
这个太专业了,搞不来
8#
helian147 发表于 2024-11-27 20:19
[Python] 纯文本查看 复制代码
import fitz

pdf_file = "xxx.pdf"
doc = fitz.open(pdf_file)
text = doc[0].get_text()
print(text)

for line in text.split("\n"):
    if '投标报价' in line:
        print(line)


这个fitz模块可以提取PDF页面文字。
9#
MQ19781011 发表于 2024-11-27 20:20
pdf 拆分就可以啦
10#
 楼主| c672569644 发表于 2024-11-27 20:34 |楼主
helian147 发表于 2024-11-27 20:19
[mw_shl_code=python,true]import fitz

pdf_file = "xxx.pdf"

ok,我去试试
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-28 05:54

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表