吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3536|回复: 19
收起左侧

[其他原创] 抓取2022年吾爱破解论坛公众号历史文章阅读量前10的文章,顺便导出合成一个pdf文件

  [复制链接]
susheng 发表于 2023-1-8 08:50
又在吾爱破解论坛泡了一年,周末写了个脚本抓取2022年吾爱破解论坛公众号历史文章阅读量前10的文章,抓取的excel文件数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等。


image.png


接着用python分析下excel数据,总发布文章84篇。

>>> len(wechat)
84


原创49篇:
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)
是    49
否    35
Name: 是否原创, dtype: int64
总阅读数2385511:
>>> wechat.阅读数.sum()
2385511

阅读数排名前10的文章如下:
>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)
         文章日期                                                    文章标题

                                                文章链接     阅读数
63 2022-03-03                      【开放注册公告】吾爱破解论坛2022年3月13日十四周年开放注册公告  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect  100001
44 2022-07-13                        【开放注册公告】吾爱破解论坛2022年7月21日暑假开放注册公告  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect  100001
53 2022-03-29                                  【JS逆向系列】某方数据获取,proto入门  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   82282
9  2022-11-06                      【开放注册公告】吾爱破解论坛2022年11月11日光棍节开放注册公告  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   81872
35 2022-07-26                                         【发布】吾爱破解精华集2021  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   77096
45 2022-07-07                         【清理未活跃会员】清理2022年十四周年开放注册未活跃会员公告  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   76394
60 2022-03-08                      【开放注册公告】吾爱破解论坛2022年3月13日十四周年开放注册公告  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   66056
41 2022-07-17                        【开放注册公告】吾爱破解论坛2022年7月21日暑假开放注册公告  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   65715
54 2022-03-17  我想通知你,但又通知不到你,现在邮箱体验这么差吗?难道不能自己主动提醒一下用户?希望你关注了公众号可以看 到。  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   61829
13 2022-11-01                      【开放注册公告】吾爱破解论坛2022年11月11日光棍节开放注册公告  http://mp.weixin.qq.com/s?__biz= ... =27#wechat_redirect   56818
顺便再分析下留言文件,包括文章日期,文章链接,文章标题,留言昵称,留言内容,留言点赞数,留言回复,留言时间,留言地区等。
image.png

留言区来自广东的小伙伴最多:

image.png
最后将所有文章导出合成一个pdf文件(含留言,共122MB),分享到网盘给论坛的小伙伴  https://www.aliyundrive.com/s/W4sdyQmv16f   

image.png

不过有个问题,导出的pdf有些图片没了,因为公众号文章是动态加载的,我用pyppeteer转html为pdf很慢,而且超时出错,不知道大佬们有什么好的办法?,代码很简单:
[Asm] 纯文本查看 复制代码
import asyncio,os
from pyppeteer import launch
browser = await launch(headless=False)
page = await browser.newPage()
await page.goto(url,{"waitUntil": 'load', "timeout": 1000*3})
await page.pdf({"path": 'pdf/'+name.replace('.html', '')+'.pdf', "format": 'A4'})
await browser.close()




免费评分

参与人数 6吾爱币 +5 热心值 +5 收起 理由
Pipi2018 + 1 热心回复!
shadmmd + 1 谢谢 @Thanks!
debug_cat + 1 + 1 我很赞同!
头铁又刚 + 1 热心回复!
luliucheng + 2 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
唐小样儿 + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

py学徒 发表于 2023-1-8 09:20
使用pyppeteer的原因:正常浏览情况下浏览器的window.navigator.webdriver的值为undefined,在用selenium模拟情况下其值为true,基于这个机制有些网站会对selenium进行反爬。此外selenium需要配置对应的浏览器驱动,其配置会比pyppeteer麻烦些。


shadmmd 发表于 2023-1-9 10:01
本帖最后由 shadmmd 于 2023-1-9 10:25 编辑

部分文件已封禁……
sp20230109_095901_348.png
下载下来的文件数量如下图
sp20230109_102127_197.png
两个文件夹的文件数量都是84个
sp20230109_102433_739.png
不知道被阿里云干掉了什么。
GTR022 发表于 2023-1-8 09:26
a2523188267 发表于 2023-1-8 09:30
厉害了我的哥,很强,很有用。
飘浮 发表于 2023-1-8 09:59
一会就去下载试试 支持个。
feiyu361 发表于 2023-1-8 10:14
一会就去看看
∫護着妳佉遠方 发表于 2023-1-8 12:02
源码能否放出来
ct268gh 发表于 2023-1-8 12:24
楼主太强了,请教一下,公众号列表的链接是抓包请求得的吗
fc_network 发表于 2023-1-8 13:50
谢谢楼主分享
lwz2000 发表于 2023-1-8 14:39
谢谢分享,看完了还是没有学会网页怎么转PDF
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 17:24

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表