劝你们要善良 发表于 2020-5-7 19:09

python问题,求帮助


学弟发给我的一个python的题。然后发现不怎么会做。请大神帮一下忙。关于提取PDF内容的代码如下



import os

import sys

import time



pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))



for pdf1 in pdfs:

    pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')

    os.rename(pdf1, pdf)

    print('='*30)

    print(pdf)



    txt = pdf[:-4] + '.txt'

    exe = '"' + sys.executable + '" "'

    pdf2txt = os.path.dirname(sys.executable)

    pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '

    try:

      #调用命令行工具pdf2txt.py进行转换

      #如果pdf加密过可以改写下面的代码

      #在-o前面使用-P来指定密码

      cmd = exe + pdf2txt + txt + ' ' + pdf

      os.popen(cmd)

      #转换需要一定时间,一般小文件2秒钟足够了

      time.sleep(2)

      #输出转换后的文本,前200个字符

      with open(txt, encoding='utf8') as fp:

            print(fp.read(200))

    except:

      pass

劝你们要善良 发表于 2020-5-7 19:10

排版垃圾的很。请见谅

Semoon 发表于 2020-5-7 19:40

你没搞对,论坛支持代码页面的{:301_995:}

yao5201478 发表于 2020-5-7 19:58

### 帮你排个版
```python
import os
import sys
import time


pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
    pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
    os.rename(pdf1, pdf)
    print('='*30)
    print(pdf)

    txt = pdf[:-4] + '.txt'
    exe = '"' + sys.executable + '" "'
    pdf2txt = os.path.dirname(sys.executable)
    pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
    try:
      #调用命令行工具pdf2txt.py进行转换
      #如果pdf加密过可以改写下面的代码
      #在-o前面使用-P来指定密码
                               
      cmd = exe + pdf2txt + txt + ' ' + pdf
      os.popen(cmd)

      #转换需要一定时间,一般小文件2秒钟足够了

      time.sleep(2)

      #输出转换后的文本,前200个字符

      with open(txt, encoding='utf8') as fp:
            print(fp.read(200))

    except:

      pass
```

ymhld 发表于 2020-5-7 20:05

查重的规则呢?段落?句子?词?

处女-大龙猫 发表于 2020-5-7 20:43

这要求有点高吧, 还要全部给找出来重复率, 我没太怎么接触文件遍成, 一般是爬虫和excel. pdf库没怎么接触{:1_911:}

Fris 发表于 2020-5-7 20:54

导出的文本文件再用diff命令比较?

Ag2S 发表于 2020-5-7 21:17


查重的规则呢?没有规则,如何写代码。

ciker_li 发表于 2020-5-7 21:58

等大神指点

Zeaf 发表于 2020-5-7 22:23

等一个大神来,有大神来了回复我一下可好
页: [1] 2
查看完整版本: python问题,求帮助