PY程序的输出为什么执行两次一样的？

狂笑一君 · 发表于 2022-2-5 10:52

本帖最后由狂笑一君于 2022-2-8 20:09 编辑

程序自己写的，但是执行时不懂为啥输出了两次，目录名和src都是输出了两次！自己一个人找不到问题点，希望有大神指导一下。url就不放了怕违规。代码如下：
#采集页面
url = ' '

#分析采集页
page_text = requests.get(url, headers=headers).text
tree = etree.HTML(page_text)

#获取套图url
book_list = tree.xpath('//div[@class="img"]//a/@href')
for book in book_list:
      book_url = ' '+book
#分析图片连接
      pic_text = requests.get(book_url, headers=headers).text
      pic_text = pic_text.encode('iso-8859-1').decode('gbk')
      pic_tree = etree.HTML(pic_text)
      book_name = pic_tree.xpath('//div[@class="h"]//text()')
      for book_path in book_name:
         print("获取",book_path,"页面成功")
         time.sleep(0.1)
         #url_list = pic_tree.xpath('//div[@id="picg"]//img/@src')
         #for url in url_list:
         # print(url)
         # time.sleep(0.2)

输出结果：

感谢10楼的大佬提点！首页的A标记确实是出先了两次一样的。

excess1989 · 发表于 2022-2-5 11:37

内容怎么不贴图片！不厚道了w哇

herokeke · 发表于 2022-2-5 12:09

贴下页面HTML结构。或许跟获取的节点有关系。

狂笑一君 · 发表于 2022-2-5 12:39

本帖最后由狂笑一君于 2022-2-5 12:41 编辑

herokeke 发表于 2022-2-5 12:09
贴下页面HTML结构。或许跟获取的节点有关系。

分析过class="h"只有一个，图片的src也是唯一，和HTML结构应该没有关系，应该是循环问题，现在是同一个页面采集了两次然后才采集下一个新的页面

狂笑一君 · 发表于 2022-2-5 12:40

excess1989 发表于 2022-2-5 11:37
内容怎么不贴图片！不厚道了w哇

这不是怕审核不通过嘛

dajituiii · 发表于 2022-2-5 13:48

看一下book_name的内容，是不是book_name里面每个元素都有一个重复的

水墨青云 · 发表于 2022-2-5 15:23

for book_path in set(book_name): 这样把重复的去掉？

jidesheng6 · 发表于 2022-2-5 16:28

看起来就是循环导致的，因为本身就是嵌套循环，或许你可以把单次循环的结果写入到一个list或者字典中，等到最后再进行去重处理后进行输出

Anekys · 发表于 2022-2-5 16:33

先调试下xpath看看浏览器里面匹配的结果是不是有重复的地方
然后再看下你那个用xpath获取的结果里面是什么样的
基本就可以确定了

s1986q · 发表于 2022-2-5 20:30

book_list有重复

帐号		自动登录	找回密码
密码			注册[Register]

[求助] PY程序的输出为什么执行两次一样的？

免费评分