吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1089|回复: 15
收起左侧

[求助] python爬虫问题

  [复制链接]
刘涛 发表于 2021-8-19 10:14
本帖最后由 刘涛 于 2021-8-19 10:26 编辑

各位大佬,大家好,今天做解析的时候遇到一个lxml解析不了的链接
链接:https://octopart.com/lm358m-on+semiconductor-84409488?r=sp
获取这个页面数据主要是最下面这一块数据
QQ图片20210819095605.png
这一块数据,在网页上是能正常用xpath寻找到
QQ图片20210819095726.png
但是在python中用lxml使用这个xpath解析不到 如图:
QQ图片20210819100439.png
然后查看网页源代码和自己保存下来的页面,
QQ图片20210819100933.png
这一块数据确实是存在,但是用lxml解析不出来,我现在就只能从源码里用正则匹配出数据,所以想请问各位大佬,能帮忙看一下怎么样能用lxml解析,然后xpath匹配到吗?
第一次发贴,如有违规,老哥们可以立刻要求我改正

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

metaxman 发表于 2021-8-19 10:28
本帖最后由 metaxman 于 2021-8-19 10:30 编辑

楼主,你可以先利用chrome的xpath插件看能不能匹配到该条数据
Wang5201314 发表于 2021-8-19 10:30
我这边的xpath  是  //*[@id="__next"]/div[3]/div/div[9]/ul/li
 楼主| 刘涛 发表于 2021-8-19 10:41
老哥们可以用自己的xpath去lxml上解析试一下,应该出来的结果都是0
 楼主| 刘涛 发表于 2021-8-19 10:44
metaxman 发表于 2021-8-19 10:28
楼主,你可以先利用chrome的xpath插件看能不能匹配到该条数据

我这边用xpath插件可以匹配到数据,
QQ图片20210819104251.png
nanhai31 发表于 2021-8-19 10:56
先用xpath插件试试能不能出现数据,其次,中间的有些节点必须删除,否则没有数据,我出现好几次了,在xpath插件上有数据显示,但是就是不能获取数据,后来删掉其中的body就可以了,你可以试试
 楼主| 刘涛 发表于 2021-8-19 11:00
nanhai31 发表于 2021-8-19 10:56
先用xpath插件试试能不能出现数据,其次,中间的有些节点必须删除,否则没有数据,我出现好几次了,在xpath ...

是直接删除<body>标签,再去用lxml解析,是吗
还是要删除body标签里面的内容
metaxman 发表于 2021-8-19 11:01
我用的BeautifulSoup解析,然后利用实例对象的select函数,可以获取到你说的内容
微信截图_20210819105931.png
 楼主| 刘涛 发表于 2021-8-19 11:06
metaxman 发表于 2021-8-19 11:01
我用的BeautifulSoup解析,然后利用实例对象的select函数,可以获取到你说的内容

如果写死了li的class属性是可以取到,但是他这个网站其他的链接,如果class名字是变化的话,就取不到数据了,
metaxman 发表于 2021-8-19 12:11
刘涛 发表于 2021-8-19 11:06
如果写死了li的class属性是可以取到,但是他这个网站其他的链接,如果class名字是变化的话,就取不到数据 ...

是的,这也是我现在需要考虑的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 22:34

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表