吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1253|回复: 3
收起左侧

[学习记录] Discuz爬虫代码--记一篇个人游记

[复制链接]
adgaio 发表于 2022-11-19 09:43
[Python] 纯文本查看 复制代码
import requests
from lxml import html
etree = html.etree
class Discuz:
    def parse(self):
        for i in range(1,5):
            url = 'http://8.142.187.40/forum.php?mod=viewthread&tid={}'.format(i)
            r = requests.get(url)
            html = r.text
            if r.status_code == 200:
                if "抱歉,指定的主题不存在或已被删除或正在被审核" in html:
                    continue
                else:
                    resp = requests.get(url).text
                    tree = etree.HTML(resp)
                    tid = i
                    name = tree.xpath('//a[contains(@class,"xw1")]/text()')[2]
                    score = tree.xpath('//td/p/a/text()')[0]
                    level = tree.xpath('//p[1]/em/a/text()')[0]
                    title = tree.xpath('//span[contains(@id,"thread")]/text()')[0]
                    contont = tree.xpath('//td[contains(@class,"t_f")]/text()')[0]
                    print("帖子ID","用户名","积分","等级","标题","内容")
                    # print(tid,name,score,level,title,contont)
                    # with open('D:\\1.txt','a+',encoding='utf-8')as f:
                    #     f.write(str(tid)+','+name+','+str(score)+','+level+','+title+','+contont.strip()+"\n")
if __name__ == '__main__':
    d = Discuz()
    d.parse()

当前代码仅用于学习,用Python+Xpath实现
写的不好大家不要喷我,谢谢,我是小趴菜。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

hxw555 发表于 2022-11-19 12:47
高手,厉害了我的哥
kemuxin 发表于 2022-11-19 13:48
wuai4444 发表于 2022-11-20 10:19
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-12 01:56

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表