好友
阅读权限20
听众
最后登录1970-1-1
|
又在吾爱破解论坛泡了一年,周末写了个脚本抓取2022年吾爱破解论坛公众号历史文章阅读量前10的文章,抓取的excel文件数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等。
接着用python分析下excel数据,总发布文章84篇。
>>> len(wechat)
84
原创49篇:
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)
是 49
否 35
Name: 是否原创, dtype: int64
总阅读数2385511:
>>> wechat.阅读数.sum()
2385511
阅读数排名前10的文章如下:
>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)
文章日期 文章标题
文章链接 阅读数
63 2022-03-03 【开放注册公告】吾爱破解论坛2022年3月13日十四周年开放注册公告 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 100001
44 2022-07-13 【开放注册公告】吾爱破解论坛2022年7月21日暑假开放注册公告 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 100001
53 2022-03-29 【JS逆向系列】某方数据获取,proto入门 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 82282
9 2022-11-06 【开放注册公告】吾爱破解论坛2022年11月11日光棍节开放注册公告 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 81872
35 2022-07-26 【发布】吾爱破解精华集2021 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 77096
45 2022-07-07 【清理未活跃会员】清理2022年十四周年开放注册未活跃会员公告 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 76394
60 2022-03-08 【开放注册公告】吾爱破解论坛2022年3月13日十四周年开放注册公告 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 66056
41 2022-07-17 【开放注册公告】吾爱破解论坛2022年7月21日暑假开放注册公告 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 65715
54 2022-03-17 我想通知你,但又通知不到你,现在邮箱体验这么差吗?难道不能自己主动提醒一下用户?希望你关注了公众号可以看 到。 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 61829
13 2022-11-01 【开放注册公告】吾爱破解论坛2022年11月11日光棍节开放注册公告 http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect 56818
顺便再分析下留言文件,包括文章日期,文章链接,文章标题,留言昵称,留言内容,留言点赞数,留言回复,留言时间,留言地区等。
留言区来自广东的小伙伴最多:
最后将所有文章导出合成一个pdf文件(含留言,共122MB),分享到网盘给论坛的小伙伴 https://www.aliyundrive.com/s/W4sdyQmv16f
不过有个问题,导出的pdf有些图片没了,因为公众号文章是动态加载的,我用pyppeteer转html为pdf很慢,而且超时出错,不知道大佬们有什么好的办法?,代码很简单:
[Asm] 纯文本查看 复制代码 import asyncio,os
from pyppeteer import launch
browser = await launch(headless=False)
page = await browser.newPage()
await page.goto(url,{"waitUntil": 'load', "timeout": 1000*3})
await page.pdf({"path": 'pdf/'+name.replace('.html', '')+'.pdf', "format": 'A4'})
await browser.close()
|
免费评分
-
查看全部评分
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|