【新手】爬取吾爱精品软件模块
本帖最后由 niebaohua 于 2018-11-19 20:51 编辑Python初学者 啥也不懂......
代码是按照看的视频照鼻子画瓢做的
大家可以帮忙改一下
应该没违规吧。。
给点免费评分吧:lol:lol:lol
import requests
from lxml import etree
headers = {"Mozilla/5.0": "(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36"}
number = int(input("请输入你要爬取内容的页数:"))
for i in range(1,number+1):
next_url = "https://www.52pojie.cn/forum-16-%d.html" % i
response = requests.get(next_url, headers = headers)
url = "https://www.52pojie.cn/"
html = response.content.decode("gb18030")
text = etree.HTML(html)
word_href = text.xpath('//a[@class="s xst"]/@href')
word_title = text.xpath('//a[@class="s xst"]/text()')
# 下一页<a href="forum-16-2.html" class="nxt"本来尝试直接通过下一页,不过好像出现问题了
print("****" * 20 +"第"+str(i)+"页" + "****" * 20)
for href,title in zip(word_href,word_title):
print(title+"-----"*5+(url+href))
#last_url = url+next_page
niebaohua 发表于 2018-11-19 14:21
该怎么填呢我是直接复制的网页上面的求指教
时空之外 发表于 2018-11-19 14:19
headers里面写错了,兄弟。
该怎么填呢我是直接复制的网页上面的求指教{:1_893:} {:301_1000:}楼主学习了{:301_971:} 有点小6啊 浩蛋 发表于 2018-11-19 12:46
有点小6啊
谢谢夸奖其实这些模块我也不太懂:lol Python这么牛逼,也想学学了 mark,学习一下 牛逼啊 胸DIE 不懂帮顶 不错,666 不懂也帮你顶一下。
页:
[1]
2