爬我最爱的网站

山野村夫-陈墨 发表于 2019-7-19 20:10

一日贼心不死，他日定会卷土重来。这不，昨天爬吾爱破解失败，今天就得乘了。
没有恶意，
没有恶意，
没有恶意！

注释写得比较详细，在这就不啰嗦了。
'''
吾爱破解编程语言区python 模块 1-14页帖子名
网站：https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1
时间：2019年7月19日
'''
importrequests
from lxml import etree

def get_msg(page):

url = "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page={}".format(page)
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win32; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
         "Referer": "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1",
         "Upgrade-Insecure-Requests": "1"
         }

response= requests.get(url,headers=header)
#print(response.content.decode("gbk"))
#从响应头看到是gbk编码
response_str= response.content.decode("gbk")

#这个转换我知道为什么做怎么做，不知道怎么解释
html_str =etree.HTML(response_str)
#print(html_str)

list=html_str.xpath("/html//tr/th/a/text()")
#print(list)
return list

defsave(record):
with open("吾爱破解.txt","w",encoding="utf-8") as f:
   for i in range(len(record)):
         f.write(str(i+1)+"、"+str(record)+"\n")
         print(record)
print("保存" + str(len(record))+ "条记录！")#注意str（）函数

if__name__ == "__main__":
#1.爬取范围1-14页
page = 1
record = []
while page <15:
   #2.读取数据,追加
   record.extend(get_msg(page))
   #3.读下一页
   page+=1
#4.保存数据：
save(record)

这个帖子和昨天的帖子爬的类型差不多，但是方向截然不同。
昨天的帖子是json数据利用，而今天是xpath在html中定位

山野村夫-陈墨 发表于 2020-5-19 22:30

雷晨发表于 2020-5-15 16:37
大佬你好，请问你可以加个爬取指定人的所有帖子的功能吗？顺便求个成品软件

你加油哈

风轻然雨朦胧 发表于 2019-7-19 20:18

封号斗罗？

zqqzqqzqq 发表于 2019-7-19 20:35

非常棒。。

山野村夫-陈墨 发表于 2019-7-19 20:35

风轻然雨朦胧发表于 2019-7-19 20:18
封号斗罗？

不至于不至于，没恶意

风轻然雨朦胧 发表于 2019-7-19 20:49

山野村夫-陈墨发表于 2019-7-19 20:35
不至于不至于，没恶意

忘了加滑稽了（手动滑稽）

尘风亦是 发表于 2019-7-19 20:56

拿吾爱试水封号警告{:301_997:}

追逐太阳 发表于 2019-7-19 21:13

山野村夫-陈墨发表于 2019-7-19 20:35
不至于不至于，没恶意

你爬取的什么东东

study小凝 发表于 2019-7-19 21:50

楼主你是真的什么都敢爬啊
哈哈
管理会把你关小黑屋的

ysq398942470 发表于 2019-7-19 21:53

楼主开门，查水表

甘愿堕落 发表于 2019-7-19 22:02

楼主🐮🍺（手动滑稽）

页: [1] 2 3

吾爱破解 - 52pojie.cn's Archiver

爬我最爱的网站