dreamrise 发表于 2021-6-10 08:51

【原创源码】【python】从pdf文档[教育部阅读指导目录]中提取出表格存为excel文件

本帖最后由 dreamrise 于 2021-6-10 08:57 编辑

# 一个从pdf文档中提取出表格数据,并另存为excel文件的python程序

读取的pdf文件来源是:

教育部基础教育课程教材发展中心首次向全国中小学生发布阅读指导目录
http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/202004/t20200422_445605.html
最下面的附件

pdf中按小学、初中、高中推荐了三套生阅读指导目录。
我们根据页码,来分别存为3个EXCEL文件。



# -*- coding: utf-8 -*-
import pdfplumber
import pandas as pd

pdf = pdfplumber.open("2020.pdf")

full_df = pd.DataFrame()

for i in range(1, 6):
    second_page = pdf.pages

    table = second_page.extract_table()

    print(table)

    table_df = pd.DataFrame(table, columns=table)

    print(table_df)

    full_df = pd.concat()

full_df.to_excel('小学段.xlsx')

full_df = pd.DataFrame()

for i in range(6, 11):
    second_page = pdf.pages

    table = second_page.extract_table()

    print(table)

    table_df = pd.DataFrame(table, columns=table)

    print(table_df)

    full_df = pd.concat()

full_df.to_excel('初中段.xlsx')


full_df = pd.DataFrame()

for i in range(11, 15):
    second_page = pdf.pages

    table = second_page.extract_table()

    print(table)

    table_df = pd.DataFrame(table, columns=table)

    print(table_df)

    full_df = pd.concat()

full_df.to_excel('高中段.xlsx')



下载链接:
链接: https://pan.baidu.com/s/1k7N1-kTb8e9eBiA7IppBPA 提取码: di3t

未编译exe文件,懒。

天天涨停天天盈 发表于 2021-6-10 09:42

大佬功能很实用但是没有EXE 不会用呀。。。

wujl82 发表于 2021-6-10 09:14

楼主这个功能很实用,谢谢分享

sam喵喵 发表于 2021-6-10 09:42

厉害,感谢分享!

penglou 发表于 2021-6-10 09:44

谢谢 楼主分享

lihu5841314 发表于 2021-6-10 09:48

学习了语法简单思维流畅

lxyx 发表于 2021-6-10 09:51

天天涨停天天盈 发表于 2021-6-10 09:42
大佬功能很实用但是没有EXE 不会用呀。。。

你安装python软件就可以编译了

PhoebeCLS 发表于 2021-6-10 12:36

楼主这个方法值得借鉴啊,真好要下载另一个文档,类似方法成功了

nappywu 发表于 2021-6-22 14:14

很强啊,楼主在哪里呀?
页: [1]
查看完整版本: 【原创源码】【python】从pdf文档[教育部阅读指导目录]中提取出表格存为excel文件