wndss 发表于 2023-10-16 22:26

python爬取论坛最新热帖demo

论坛每天有很多帖子,为了快速筛选出自己感兴趣的内容,于是自己写了一个简单的demo。
输入关键词即可筛选热帖中的内容,新帖由于存在大量水帖就没有爬取新帖,只抓取了热帖。

简单的python代码demo

# -*- coding: utf-8 -*-

import requests
from lxml import etree

word = ''
url = "https://www.52pojie.cn/forum.php?mod=guide&view=hot"

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

res = requests.get(url,headers=headers)
s = etree.HTML(res.text)
c = 1
for i in s.xpath("//th[@class='common']/a"):
        wa_title = i.text
        wa_url   = "https://www.52pojie.cn/"+i.get('href')
        if(wa_title!='New' and word in wa_title):
                print(str(c) + ' ' + wa_title + ' ' +wa_url)
                c = c+1

有python环境 安装一下依赖直接就跑起来了,修改word 可以自己添加关键词
运行结果图

小众资源 发表于 2023-10-16 23:26

这是拿咱家老窝开涮{:1_925:}

gebiafu 发表于 2023-10-16 23:33

抄自家老窝,头铁,看一会给你删贴

SSSPZ 发表于 2023-10-17 00:35

好家伙顶风作案,但是谢谢您嘞,我拿走了

NewGuy5354 发表于 2023-10-17 02:42

好家伙,勇气可嘉🤡

fys2008 发表于 2023-10-17 06:45

可能违规了

milu1123 发表于 2023-10-17 08:07

你这只是一个板块、、、、{:1_907:}

小雨网络 发表于 2023-10-17 08:17

可以加个窗口这样好看~!

7001 发表于 2023-10-17 08:53

论坛就是这么被测试的,WAF压力大呀。

ahehaoyu 发表于 2023-10-17 08:58

{:301_986:}太岁头上动土
页: [1] 2 3
查看完整版本: python爬取论坛最新热帖demo