好友
阅读权限10
听众
最后登录1970-1-1
|
狂笑一君
发表于 2022-2-5 10:52
本帖最后由 狂笑一君 于 2022-2-8 20:09 编辑
程序自己写的,但是执行时不懂为啥输出了两次,目录名和src都是输出了两次!自己一个人找不到问题点,希望有大神指导一下。url就不放了怕违规。代码如下:
#采集页面
url = ' '
#分析采集页
page_text = requests.get(url, headers=headers).text
tree = etree.HTML(page_text)
#获取套图url
book_list = tree.xpath('//div[@class="img"]//a/@href')
for book in book_list:
book_url = ' '+book
#分析图片连接
pic_text = requests.get(book_url, headers=headers).text
pic_text = pic_text.encode('iso-8859-1').decode('gbk')
pic_tree = etree.HTML(pic_text)
book_name = pic_tree.xpath('//div[@class="h"]//text()')
for book_path in book_name:
print("获取",book_path,"页面成功")
time.sleep(0.1)
#url_list = pic_tree.xpath('//div[@id="picg"]//img/@src')
#for url in url_list:
# print(url)
# time.sleep(0.2)
输出结果:
感谢10楼的大佬提点!首页的A标记确实是出先了两次一样的。
|
免费评分
-
查看全部评分
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|