吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1142|回复: 10
收起左侧

[求助] python问题,求帮助

[复制链接]
劝你们要善良 发表于 2020-5-7 19:09

学弟发给我的一个python的题。然后发现不怎么会做。请大神帮一下忙。关于提取PDF内容的代码如下
QQ图片20200507190639.jpg


import os

import sys

import time



pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))



for pdf1 in pdfs:

    pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')

    os.rename(pdf1, pdf)

    print('='*30)

    print(pdf)



    txt = pdf[:-4] + '.txt'

    exe = '"' + sys.executable + '" "'

    pdf2txt = os.path.dirname(sys.executable)

    pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '

    try:

        #调用命令行工具pdf2txt.py进行转换

        #如果pdf加密过可以改写下面的代码

        #在-o前面使用-P来指定密码

        cmd = exe + pdf2txt + txt + ' ' + pdf

        os.popen(cmd)

        #转换需要一定时间,一般小文件2秒钟足够了

        time.sleep(2)

        #输出转换后的文本,前200个字符

        with open(txt, encoding='utf8') as fp:

            print(fp.read(200))

    except:

        pass

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 劝你们要善良 发表于 2020-5-7 19:10
排版垃圾的很。请见谅
Semoon 发表于 2020-5-7 19:40
yao5201478 发表于 2020-5-7 19:58

帮你排个版

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
    pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
    os.rename(pdf1, pdf)
    print('='*30)
    print(pdf)

    txt = pdf[:-4] + '.txt'
    exe = '"' + sys.executable + '" "'
    pdf2txt = os.path.dirname(sys.executable)
    pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
    try:
        #调用命令行工具pdf2txt.py进行转换
        #如果pdf加密过可以改写下面的代码
        #在-o前面使用-P来指定密码

        cmd = exe + pdf2txt + txt + ' ' + pdf
        os.popen(cmd)

        #转换需要一定时间,一般小文件2秒钟足够了

        time.sleep(2)

        #输出转换后的文本,前200个字符

        with open(txt, encoding='utf8') as fp:
            print(fp.read(200))

    except:

        pass
ymhld 发表于 2020-5-7 20:05
查重的规则呢?段落?句子?词?
处女-大龙猫 发表于 2020-5-7 20:43
这要求有点高吧, 还要全部给找出来重复率, 我没太怎么接触文件遍成, 一般是爬虫和excel. pdf库没怎么接触
Fris 发表于 2020-5-7 20:54
导出的文本文件再用diff命令比较?
Ag2S 发表于 2020-5-7 21:17

查重的规则呢?没有规则,如何写代码。
ciker_li 发表于 2020-5-7 21:58
等大神指点
Zeaf 发表于 2020-5-7 22:23
等一个大神来,有大神来了回复我一下可好
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 16:57

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表