一日贼心不死,他日定会卷土重来。这不,昨天爬吾爱破解失败,今天就得乘了。
没有恶意,
没有恶意,
没有恶意!
注释写得比较详细,在这就不啰嗦了。
[Python] 纯文本查看 复制代码 '''
吾爱破解 编程语言区 python 模块 1-14页 帖子名
网站:https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1
时间:2019年7月19日
'''
import requests
from lxml import etree
def get_msg(page):
url = "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page={}".format(page)
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win32; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
"Referer": "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1",
"Upgrade-Insecure-Requests": "1"
}
response = requests.get(url,headers=header)
#print(response.content.decode("gbk"))
#从响应头看到是gbk编码
response_str = response.content.decode("gbk")
#这个转换我知道为什么做怎么做,不知道怎么解释
html_str =etree.HTML(response_str)
#print(html_str)
list=html_str.xpath("/html//tr/th/a[2]/text()")
#print(list)
return list
def save(record):
with open("吾爱破解.txt","w",encoding="utf-8") as f:
for i in range(len(record)):
f.write(str(i+1)+"、"+str(record[i])+"\n")
print(record[i])
print("保存" + str(len(record))+ "条记录!")#注意str()函数
if __name__ == "__main__":
#1.爬取范围 1-14页
page = 1
record = []
while page <15:
#2.读取数据,追加
record.extend(get_msg(page))
#3.读下一页
page+=1
#4.保存数据:
save(record)
这个帖子和昨天的帖子爬的类型差不多,但是方向截然不同。
昨天的帖子是json数据利用,而今天是xpath在html中定位 |