吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1415|回复: 20
收起左侧

[学习记录] python爬取论坛最新热帖demo

  [复制链接]
wndss 发表于 2023-10-16 22:26
论坛每天有很多帖子,为了快速筛选出自己感兴趣的内容,于是自己写了一个简单的demo。
输入关键词即可筛选热帖中的内容,新帖由于存在大量水帖就没有爬取新帖,只抓取了热帖。

简单的python代码demo

[Python] 纯文本查看 复制代码
# -*- coding: utf-8 -*-

import requests
from lxml import etree

word = ''
url = "https://www.52pojie.cn/forum.php?mod=guide&view=hot"

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

res = requests.get(url,headers=headers)
s = etree.HTML(res.text)
c = 1
for i in s.xpath("//th[@class='common']/a"):
	wa_title = i.text
	wa_url   = "https://www.52pojie.cn/"+i.get('href')
	if(wa_title!='New' and word in wa_title):
		print(str(c) + ' ' + wa_title + ' ' +wa_url)
		c = c+1


有python环境 安装一下依赖直接就跑起来了,修改word 可以自己添加关键词
运行结果图 521.png

免费评分

参与人数 2吾爱币 +2 热心值 +2 收起 理由
Bob5230 + 1 + 1 热心回复!
hrh123 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

小众资源 发表于 2023-10-16 23:26
这是拿咱家老窝开涮
gebiafu 发表于 2023-10-16 23:33
SSSPZ 发表于 2023-10-17 00:35
NewGuy5354 发表于 2023-10-17 02:42
好家伙,勇气可嘉🤡
fys2008 发表于 2023-10-17 06:45
可能违规了
milu1123 发表于 2023-10-17 08:07
你这只是一个板块、、、、
小雨网络 发表于 2023-10-17 08:17
可以加个窗口这样好看~!
7001 发表于 2023-10-17 08:53
论坛就是这么被测试的,WAF压力大呀。
ahehaoyu 发表于 2023-10-17 08:58
太岁头上动土
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-22 00:35

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表