吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6236|回复: 29
收起左侧

[Python 转载] 爬我最爱的网站

  [复制链接]
山野村夫-陈墨 发表于 2019-7-19 20:10
一日贼心不死,他日定会卷土重来。这不,昨天爬吾爱破解失败,今天就得乘了。
没有恶意,
没有恶意,
没有恶意!




注释写得比较详细,在这就不啰嗦了。
[Python] 纯文本查看 复制代码
'''
    吾爱破解  编程语言区  python 模块 1-14页 帖子名
    网站:https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1
    时间:2019年7月19日
'''
import  requests
from   lxml import etree


def get_msg(page):

    url = "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page={}".format(page)
    header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win32; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
             "Referer": "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1",
              "Upgrade-Insecure-Requests": "1"
              }

    response  = requests.get(url,headers=header)
    #print(response.content.decode("gbk"))
    #从响应头看到是gbk编码
    response_str  = response.content.decode("gbk")

    #这个转换我知道为什么做怎么做,不知道怎么解释
    html_str =etree.HTML(response_str)
    #print(html_str)

    list=html_str.xpath("/html//tr/th/a[2]/text()")
    #print(list)
    return list

def  save(record):
    with open("吾爱破解.txt","w",encoding="utf-8") as f:
        for i in range(len(record)):
            f.write(str(i+1)+"、"+str(record[i])+"\n")
            print(record[i])
    print("保存" + str(len(record))+ "条记录!")#注意str()函数

if  __name__ == "__main__":
    #1.爬取范围  1-14页
    page = 1
    record = []
    while page <15:
        #2.读取数据,追加
        record.extend(get_msg(page))
        #3.读下一页
        page+=1
     #4.保存数据:
    save(record)



这个帖子和昨天的帖子爬的类型差不多,但是方向截然不同。
昨天的帖子是json数据利用,而今天是xpath在html中定位

免费评分

参与人数 2吾爱币 +3 热心值 +2 收起 理由
风轻然雨朦胧 + 1 + 1 嘿嘿,吃个瓜。
苏紫方璇 + 2 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 山野村夫-陈墨 发表于 2020-5-19 22:30
雷晨 发表于 2020-5-15 16:37
大佬你好,请问你可以加个爬取指定人的所有帖子的功能吗?顺便求个成品软件

你加油哈
风轻然雨朦胧 发表于 2019-7-19 20:18
zqqzqqzqq 发表于 2019-7-19 20:35
 楼主| 山野村夫-陈墨 发表于 2019-7-19 20:35

不至于不至于,没恶意
风轻然雨朦胧 发表于 2019-7-19 20:49
山野村夫-陈墨 发表于 2019-7-19 20:35
不至于不至于,没恶意

忘了加滑稽了(手动滑稽)
尘风亦是 发表于 2019-7-19 20:56
拿吾爱试水   封号警告
追逐太阳 发表于 2019-7-19 21:13
山野村夫-陈墨 发表于 2019-7-19 20:35
不至于不至于,没恶意

你爬取的什么东东
study小凝 发表于 2019-7-19 21:50
楼主你是真的什么都敢爬啊
哈哈
管理会把你关小黑屋的
ysq398942470 发表于 2019-7-19 21:53
楼主开门,查水表
甘愿堕落 发表于 2019-7-19 22:02
楼主&#128046;&#127866;(手动滑稽)
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-22 08:20

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表