python爬取论坛最新热帖demo
论坛每天有很多帖子,为了快速筛选出自己感兴趣的内容,于是自己写了一个简单的demo。输入关键词即可筛选热帖中的内容,新帖由于存在大量水帖就没有爬取新帖,只抓取了热帖。
简单的python代码demo
# -*- coding: utf-8 -*-
import requests
from lxml import etree
word = ''
url = "https://www.52pojie.cn/forum.php?mod=guide&view=hot"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}
res = requests.get(url,headers=headers)
s = etree.HTML(res.text)
c = 1
for i in s.xpath("//th[@class='common']/a"):
wa_title = i.text
wa_url = "https://www.52pojie.cn/"+i.get('href')
if(wa_title!='New' and word in wa_title):
print(str(c) + ' ' + wa_title + ' ' +wa_url)
c = c+1
有python环境 安装一下依赖直接就跑起来了,修改word 可以自己添加关键词
运行结果图
这是拿咱家老窝开涮{:1_925:} 抄自家老窝,头铁,看一会给你删贴 好家伙顶风作案,但是谢谢您嘞,我拿走了 好家伙,勇气可嘉🤡 可能违规了 你这只是一个板块、、、、{:1_907:} 可以加个窗口这样好看~! 论坛就是这么被测试的,WAF压力大呀。 {:301_986:}太岁头上动土