批量抓取公众号文章导出pdf生成书签
我之前的帖子发过批量下载公众号文章和数据(阅读数点赞数在看数留言数),今天分享批量下载公众号文章导出pdf, 合并成一个带书签的pdf文件,代码如下:from PyPDF2 importPdfFileReader, PdfFileWriter,PdfFileMerger
file_writer = PdfFileWriter()
merger = PdfFileMerger()
num = 0
for root, dirs, files in os.walk('.'):
for name in files:
if name.endswith(".pdf"):
print(name)
file_reader = PdfFileReader(f"{name}")
file_writer.addBookmark(html.unescape(name).replace('.pdf',''), num, parent=None)
for page in range(file_reader.getNumPages()):
num += 1
file_writer.addPage(file_reader.getPage(page))
with open(r"公众号文章合集.pdf",'wb') as f:
file_writer.write(f)
效果如图,以莫言的公众号为例,点击左侧书签跳转到对应文章:
当然也可以将pdf的书签导出到excel,代码:
def bookmark_export(lines):
bookmark = ''
for line in lines:
if isinstance(line, dict):
bookmark += line['/Title'] + ','+str(line['/Page']+1)+'\n'
else:
bookmark_export(line)
return bookmark
with open('公众号文章合集.pdf', 'rb') as f:
lines = PdfFileReader(f).getOutlines()
bookmark = bookmark_export(lines)
with open('公众号文章合集.csv', 'a+', encoding='utf-8-sig') as f:
f.write(bookmark)
效果如图:
简单一句话就是批量合成pdf,效果 https://www.aliyundrive.com/s/Q6L8wUwFZmi daymissed 发表于 2022-8-28 19:19
就是我想下载公众号太多了,也不想全部下载他们的文章,这个啥办?
过滤下时间就行,或者加个关键词过滤 哦哦~差点评论里找楼主要以前的链接了,想了想作为论坛老鸟居然忘了点名字查看帖子这种基操。。。真是老糊涂了。。。。灰常有用~多谢分享~~ 非常有用!感谢楼主 感谢楼主 感谢楼主无私分享 感谢楼主分享 感谢分享
感谢分享,这个好 楼主你好,可以打包成软件吗 感谢楼主分享! 如果是个成品,对于我们这种小白是十分友好的{:1_918:}