【原创源码】【python】从pdf文档[教育部阅读指导目录]中提取出表格存为excel文件
本帖最后由 dreamrise 于 2021-6-10 08:57 编辑# 一个从pdf文档中提取出表格数据,并另存为excel文件的python程序
读取的pdf文件来源是:
教育部基础教育课程教材发展中心首次向全国中小学生发布阅读指导目录
http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/202004/t20200422_445605.html
最下面的附件
pdf中按小学、初中、高中推荐了三套生阅读指导目录。
我们根据页码,来分别存为3个EXCEL文件。
# -*- coding: utf-8 -*-
import pdfplumber
import pandas as pd
pdf = pdfplumber.open("2020.pdf")
full_df = pd.DataFrame()
for i in range(1, 6):
second_page = pdf.pages
table = second_page.extract_table()
print(table)
table_df = pd.DataFrame(table, columns=table)
print(table_df)
full_df = pd.concat()
full_df.to_excel('小学段.xlsx')
full_df = pd.DataFrame()
for i in range(6, 11):
second_page = pdf.pages
table = second_page.extract_table()
print(table)
table_df = pd.DataFrame(table, columns=table)
print(table_df)
full_df = pd.concat()
full_df.to_excel('初中段.xlsx')
full_df = pd.DataFrame()
for i in range(11, 15):
second_page = pdf.pages
table = second_page.extract_table()
print(table)
table_df = pd.DataFrame(table, columns=table)
print(table_df)
full_df = pd.concat()
full_df.to_excel('高中段.xlsx')
下载链接:
链接: https://pan.baidu.com/s/1k7N1-kTb8e9eBiA7IppBPA 提取码: di3t
未编译exe文件,懒。 大佬功能很实用但是没有EXE 不会用呀。。。 楼主这个功能很实用,谢谢分享 厉害,感谢分享!
谢谢 楼主分享 学习了语法简单思维流畅 天天涨停天天盈 发表于 2021-6-10 09:42
大佬功能很实用但是没有EXE 不会用呀。。。
你安装python软件就可以编译了 楼主这个方法值得借鉴啊,真好要下载另一个文档,类似方法成功了 很强啊,楼主在哪里呀?
页:
[1]