将PDF文件转换成Word文档快捷方式
本帖最后由 chendm 于 2023-11-29 15:28 编辑备料1:一个PDF文件,我的文件位置:D:\items_python\pdfdoc\第4章 华为PPT课程提供.pdf
pdf文件内容如下:
备料2:编写一个pdf2doc.py文件,内容如下
为了方便大家使用代码直接贴这里了
from pdf2docx import Converter
my_pdf_file = r'D:\items_python\pdfdoc\第4章 华为PPT课程提供.pdf'
pdf_2docx_file = r'D:\items_python\pdfdoc\第4章 华为PPT课程提供.docx'
op = Converter(my_pdf_file)
op.convert(pdf_2docx_file,start =0 ,end=None)
op.close()
这个pdf2doc.py文件中用了pdf2docx组件库,如果你没有安装,可以用“ pip install pdf2docx -i https://mirror.baidu.com/pypi/simple ”安装它。
接下来就是操作文件,来实现pdf转换成word的docx文件了。
PS D:\items_python\pdfdoc> python .\pdf2doc.py
Start to convert D:\items_python\pdfdoc\第4章 华为PPT课程提供.pdf
Opening document...
Analyzing document...
Parsing pages...
(1/1) Page 1
Creating pages...
(1/1) Page 1
Terminated in 0.98s.
转换成功
打开文件目录 D:\items_python\pdfdoc\,发现“第4章 华为PPT课程提供.docx”生成了。
打开“第4章 华为PPT课程提供.docx”文件内容
WORD所有元素与PDF原文件内容显示是一样的。
xuzhe187 发表于 2023-11-30 07:31
PDF转word需要付费吗?现在WPS都收费
word2016以上版本打开pdf,直接另存成word就可以了,何必纠结于wps import os
import pdf2docx
def convert_pdf_to_doc():
pdf_path = input("请输入要转换的PDF文件路径:")
# 获取PDF文件所在的目录和文件名
pdf_dir = os.path.dirname(pdf_path)
pdf_filename = os.path.basename(pdf_path)
# 将文件扩展名改为.docx
doc_filename = os.path.splitext(pdf_filename) + ".docx"
# 合成输出的DOC文件路径
doc_path = os.path.join(pdf_dir, doc_filename)
pdf_file = open(pdf_path, 'rb')
doc_file = open(doc_path, 'w')
pdf2docx.convert(pdf_file, doc_file, start=0, end=None)
pdf_file.close()
doc_file.close()
print("转换完成,已保存为:" + doc_path)
# 运行脚本
convert_pdf_to_doc()
这个前提是PDF文档中文字是可以copy的吗?如果是图片格式,需要先OCR吗? 对于我这小白来说,还是喜欢打包的 PPT转为拼长图,文档加水印,Python打包在哪里 能转表格可以的 PDF转word需要付费吗?现在WPS都收费 图片带水印的应该是处理不了,就算能出文件,内容估计也是乱的 好高级,但是用一种软件就可以直接转化啊,为什么需要这么复炸啊? chenzju01 发表于 2023-11-30 08:29
好高级,但是用一种软件就可以直接转化啊,为什么需要这么复炸啊?
不要会员的有什么软件?