susheng 发表于 2023-1-8 08:50

抓取2022年吾爱破解论坛公众号历史文章阅读量前10的文章,顺便导出合成一个pdf文件

又在吾爱破解论坛泡了一年,周末写了个脚本抓取2022年吾爱破解论坛公众号历史文章阅读量前10的文章,抓取的excel文件数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等。





接着用python分析下excel数据,总发布文章84篇。

>>> len(wechat)
84

原创49篇:
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)
是    49
否    35
Name: 是否原创, dtype: int64
总阅读数2385511:
>>> wechat.阅读数.sum()
2385511

阅读数排名前10的文章如下:
>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)
         文章日期                                                    文章标题

                                                文章链接   阅读数
63 2022-03-03                      【开放注册公告】吾爱破解论坛2022年3月13日十四周年开放注册公告http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137299&idx=1&sn=57692ae05c43c9b4908c3bf73f8fbd76&chksm=bd50b5478a273c51ca505191103882e4f341cb59c6aa521081e77009ca188c4875749a5dbdbd&scene=27#wechat_redirect100001
44 2022-07-13                        【开放注册公告】吾爱破解论坛2022年7月21日暑假开放注册公告http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137847&idx=1&sn=d135b92e1f45ba0c26227509b798aa0e&chksm=bd50b7638a273e7586e5102b8182454f76bbc19f5f43d401c59c07d32435e3eff3dc0d076934&scene=27#wechat_redirect100001
53 2022-03-29                                  【JS逆向系列】某方数据获取,proto入门http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137353&idx=1&sn=ff5c7d9c27f4c5e387664b194fbec72b&chksm=bd50b51d8a273c0b73dad5e4ec1d00687fdcfadf1fc4ebb4063884c8922f0ec4dc0223ff13ea&scene=27#wechat_redirect   82282
92022-11-06                      【开放注册公告】吾爱破解论坛2022年11月11日光棍节开放注册公告http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651138613&idx=1&sn=6ee9b89f3e4c2e5bf641379ed53a91d1&chksm=bd50ba618a27337743b0aee76a3df1331ebb475dbd6efa2a2d86d38736206a13439418dba0b4&scene=27#wechat_redirect   81872
35 2022-07-26                                       【发布】吾爱破解精华集2021http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137893&idx=1&sn=b908d9512393637417f0253e729620e3&chksm=bd50b7318a273e279159c382aec4abce3ea4f6f7acf648345c4a14a11a556312a778cd20b6d8&scene=27#wechat_redirect   77096
45 2022-07-07                         【清理未活跃会员】清理2022年十四周年开放注册未活跃会员公告http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137844&idx=1&sn=01e029b531618cc3e1bee6cdcc8bd4d1&chksm=bd50b7608a273e761e31bc30e07ba64d9ac93f23eb562b29ccf4d57b3ed18d606ff064d1c2a2&scene=27#wechat_redirect   76394
60 2022-03-08                      【开放注册公告】吾爱破解论坛2022年3月13日十四周年开放注册公告http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137308&idx=1&sn=5d56fb3c532d4b013ccd37885de4ce43&chksm=bd50b5488a273c5e66f3e88aa2709257767104a8cf84773adc580a3f6e275a37cc9d607bc4b7&scene=27#wechat_redirect   66056
41 2022-07-17                        【开放注册公告】吾爱破解论坛2022年7月21日暑假开放注册公告http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137854&idx=1&sn=1774f0b2c7f8f586807595aa70788200&chksm=bd50b76a8a273e7c90fa48da3eaaaeb0ac6245d019174f1caafc5089d830882e70dc34ddece8&scene=27#wechat_redirect   65715
54 2022-03-17我想通知你,但又通知不到你,现在邮箱体验这么差吗?难道不能自己主动提醒一下用户?希望你关注了公众号可以看 到。http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651137331&idx=1&sn=98a67aa3a04d5e1d394174ffa7a7a496&chksm=bd50b5678a273c71fb1134a1673e3d60e79a9129d266fbf927f3bea9e7b17a57b1819b85bca5&scene=27#wechat_redirect   61829
13 2022-11-01                      【开放注册公告】吾爱破解论坛2022年11月11日光棍节开放注册公告http://mp.weixin.qq.com/s?__biz=MjM5Mjc3MDM2Mw==&mid=2651138547&idx=1&sn=3109099f2bbd39321e8e090549c594f4&chksm=bd50b9a78a2730b10392787f027f1343b65bed45479320caa20c069823d84a67cd2c36820289&scene=27#wechat_redirect   56818
顺便再分析下留言文件,包括文章日期,文章链接,文章标题,留言昵称,留言内容,留言点赞数,留言回复,留言时间,留言地区等。


留言区来自广东的小伙伴最多:


最后将所有文章导出合成一个pdf文件(含留言,共122MB),分享到网盘给论坛的小伙伴https://www.aliyundrive.com/s/W4sdyQmv16f   



不过有个问题,导出的pdf有些图片没了,因为公众号文章是动态加载的,我用pyppeteer转html为pdf很慢,而且超时出错,不知道大佬们有什么好的办法?,代码很简单:
import asyncio,os
from pyppeteer import launch
browser = await launch(headless=False)
page = await browser.newPage()
await page.goto(url,{"waitUntil": 'load', "timeout": 1000*3})
await page.pdf({"path": 'pdf/'+name.replace('.html', '')+'.pdf', "format": 'A4'})
await browser.close()



py学徒 发表于 2023-1-8 09:20

使用pyppeteer的原因:正常浏览情况下浏览器的window.navigator.webdriver的值为undefined,在用selenium模拟情况下其值为true,基于这个机制有些网站会对selenium进行反爬。此外selenium需要配置对应的浏览器驱动,其配置会比pyppeteer麻烦些。


shadmmd 发表于 2023-1-9 10:01

本帖最后由 shadmmd 于 2023-1-9 10:25 编辑

部分文件已封禁……

下载下来的文件数量如下图

两个文件夹的文件数量都是84个

不知道被阿里云干掉了什么。

GTR022 发表于 2023-1-8 09:26

厉害了我的哥,这个有意思

a2523188267 发表于 2023-1-8 09:30

厉害了我的哥,很强,很有用。

飘浮 发表于 2023-1-8 09:59

一会就去下载试试 支持个。

feiyu361 发表于 2023-1-8 10:14

一会就去看看

∫護着妳佉遠方 发表于 2023-1-8 12:02

源码能否放出来

ct268gh 发表于 2023-1-8 12:24

楼主太强了,请教一下,公众号列表的链接是抓包请求得的吗

fc_network 发表于 2023-1-8 13:50

谢谢楼主分享

lwz2000 发表于 2023-1-8 14:39

谢谢分享,看完了还是没有学会网页怎么转PDF
页: [1] 2
查看完整版本: 抓取2022年吾爱破解论坛公众号历史文章阅读量前10的文章,顺便导出合成一个pdf文件