吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2279|回复: 20
收起左侧

[Python 原创] 将PDF文件转换成Word文档快捷方式

[复制链接]
chendm 发表于 2023-11-29 15:14
本帖最后由 chendm 于 2023-11-29 15:28 编辑

备料1:一个PDF文件,我的文件位置:D:\items_python\pdfdoc\第4章 华为PPT课程提供.pdf
pdf文件内容如下:

第4章 华为PPT课程提供文件 内容

第4章 华为PPT课程提供文件 内容


备料2:编写一个pdf2doc.py文件,内容如下
2.png

为了方便大家使用代码直接贴这里了
[Python] 纯文本查看 复制代码
from pdf2docx import Converter 

my_pdf_file = r'D:\items_python\pdfdoc\第4章 华为PPT课程提供.pdf'
pdf_2docx_file = r'D:\items_python\pdfdoc\第4章 华为PPT课程提供.docx'

op = Converter(my_pdf_file)
op.convert(pdf_2docx_file,start =0 ,end=None)
op.close()


这个pdf2doc.py文件中用了pdf2docx组件库,如果你没有安装,可以用“ pip install pdf2docx -i https://mirror.baidu.com/pypi/simple ”安装它。

接下来就是操作文件,来实现pdf转换成word的docx文件了。

3.png

PS D:\items_python\pdfdoc> python .\pdf2doc.py
[INFO] Start to convert D:\items_python\pdfdoc\第4章 华为PPT课程提供.pdf
[INFO] [1/4] Opening document...
[INFO] [2/4] Analyzing document...
[INFO] [3/4] Parsing pages...
[INFO] (1/1) Page 1
[INFO] [4/4] Creating pages...
[INFO] (1/1) Page 1
[INFO] Terminated in 0.98s.
转换成功

打开文件目录 D:\items_python\pdfdoc\,发现“第4章 华为PPT课程提供.docx”生成了。

4.png
打开“第4章 华为PPT课程提供.docx”文件内容
5.png

WORD所有元素与PDF原文件内容显示是一样的。




2.png

免费评分

参与人数 3吾爱币 +5 热心值 +3 收起 理由
苏紫方璇 + 3 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
weixiaoqixi + 1 + 1 我很赞同!
wanfon + 1 + 1 热心回复!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

江米小枣 发表于 2023-12-4 15:55
xuzhe187 发表于 2023-11-30 07:31
PDF转word需要付费吗?现在WPS都收费

word2016以上版本打开pdf,直接另存成word就可以了,何必纠结于wps
barnett2016 发表于 2024-1-2 17:24
[Python] 纯文本查看 复制代码
import os
import pdf2docx

def convert_pdf_to_doc():
    pdf_path = input("请输入要转换的PDF文件路径:")

    # 获取PDF文件所在的目录和文件名
    pdf_dir = os.path.dirname(pdf_path)
    pdf_filename = os.path.basename(pdf_path)

    # 将文件扩展名改为.docx
    doc_filename = os.path.splitext(pdf_filename)[0] + ".docx"

    # 合成输出的DOC文件路径
    doc_path = os.path.join(pdf_dir, doc_filename)

    pdf_file = open(pdf_path, 'rb')
    doc_file = open(doc_path, 'w')

    pdf2docx.convert(pdf_file, doc_file, start=0, end=None)

    pdf_file.close()
    doc_file.close()

    print("转换完成,已保存为:" + doc_path)

# 运行脚本
convert_pdf_to_doc()
wglcs9803 发表于 2023-11-29 16:12
这个前提是PDF文档中文字是可以copy的吗?如果是图片格式,需要先OCR吗?
SU150228 发表于 2023-11-29 16:15
对于我这小白来说,还是喜欢打包的
sai609 发表于 2023-11-29 18:49
PPT转为拼长图,文档加水印,Python打包在哪里
Aobbao 发表于 2023-11-29 21:03
能转表格可以的
头像被屏蔽
moruye 发表于 2023-11-29 21:15
提示: 作者被禁止或删除 内容自动屏蔽
xuzhe187 发表于 2023-11-30 07:31
PDF转word需要付费吗?现在WPS都收费
bobxie 发表于 2023-11-30 07:41
图片带水印的应该是处理不了,就算能出文件,内容估计也是乱的
chenzju01 发表于 2023-11-30 08:29
好高级,但是用一种软件就可以直接转化啊,为什么需要这么复炸啊?
keluochuan 发表于 2023-11-30 11:04
chenzju01 发表于 2023-11-30 08:29
好高级,但是用一种软件就可以直接转化啊,为什么需要这么复炸啊?

不要会员的有什么软件?
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 14:44

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表