用markitdown把pdf批量转md

barnett2016 · 发表于 2024-12-16 23:16

试了一下微软的新出的markitdown。
github.com/microsoft/markitdown

pdf转md有奇效，Adobe Acrobat DC转不出来文字的pdf。它可以秒出文本。

方便提取文字，

适合那些不是ocr的方案。纯图片要ocr的它也没办法。

以前我用PyMuPDF（fitz），总感觉不够直接。 

[Python] 纯文本查看 复制代码

import os
from markitdown import MarkItDown

def convert_pdfs_to_markdown(directory):
    # 创建MarkItDown对象
    markitdown = MarkItDown()

    # 检查目录是否存在
    if not os.path.isdir(directory):
        print(f"错误：目录 {directory} 不存在。")
        return

    # 遍历目录中的所有文件
    for filename in os.listdir(directory):
        if filename.endswith(".pdf"):
            pdf_path = os.path.join(directory, filename)
            markdown_filename = os.path.splitext(filename)[0] + ".md"
            markdown_path = os.path.join(directory, markdown_filename)

            # 打印操作提示
            print(f"正在转换文件：{pdf_path}")
            print(f"Markdown文件将保存为：{markdown_path}")

            # 使用markitdown转换PDF到Markdown
            try:
                result = markitdown.convert(pdf_path)
                with open(markdown_path, 'w', encoding='utf-8') as md_file:
                    md_file.write(result.text_content)
                print(f"转换成功：{markdown_path}")
            except Exception as e:
                print(f"转换失败：{e}")

    print("所有PDF文件转换完成。")

# 用户输入PDF文件目录
pdf_directory = input("请输入PDF文件所在的目录：")
convert_pdfs_to_markdown(pdf_directory)

52wjj · 发表于 2024-12-17 01:15

太强了！收藏！

gztf · 发表于 2024-12-17 07:18

不错的方法，保存了

liubai600 · 发表于 2024-12-17 07:22

有点意思，搞下来试试。感谢~

三滑稽甲苯 · 发表于 2024-12-17 08:07

有对比效果图吗

Echo001 · 发表于 2024-12-17 08:12

收藏一下，有用

tianyagd · 发表于 2024-12-17 08:13

我需要将PDF文件里面的图片扫描版的表格提取数据，有啥好办法没？

spark9 · 发表于 2024-12-17 08:17

tianyagd 发表于 2024-12-17 08:13
我需要将PDF文件里面的图片扫描版的表格提取数据，有啥好办法没？

试试 ABBYY FineReader

zhengkejie · 发表于 2024-12-17 08:41

快快快，等不及了，谁帮忙编译一个

kongson · 发表于 2024-12-17 08:54

感谢分享，真实用

帐号		自动登录	找回密码
密码			注册[Register]

[Python 原创] 用markitdown把pdf批量转md

免费评分

浏览过的版块