python爬虫问题

刘涛发表于 2021-8-19 10:14

本帖最后由刘涛于 2021-8-19 10:26 编辑

各位大佬，大家好，今天做解析的时候遇到一个lxml解析不了的链接
链接:https://octopart.com/lm358m-on+semiconductor-84409488?r=sp
获取这个页面数据主要是最下面这一块数据

这一块数据，在网页上是能正常用xpath寻找到

但是在python中用lxml使用这个xpath解析不到如图：

然后查看网页源代码和自己保存下来的页面，

这一块数据确实是存在，但是用lxml解析不出来，我现在就只能从源码里用正则匹配出数据，所以想请问各位大佬，能帮忙看一下怎么样能用lxml解析，然后xpath匹配到吗？
第一次发贴，如有违规，老哥们可以立刻要求我改正

metaxman 发表于 2021-8-19 10:28

本帖最后由 metaxman 于 2021-8-19 10:30 编辑

楼主，你可以先利用chrome的xpath插件看能不能匹配到该条数据

Wang5201314 发表于 2021-8-19 10:30

我这边的xpath是//*[@id="__next"]/div/div/div/ul/li

刘涛发表于 2021-8-19 10:41

老哥们可以用自己的xpath去lxml上解析试一下，应该出来的结果都是0

刘涛发表于 2021-8-19 10:44

metaxman 发表于 2021-8-19 10:28
楼主，你可以先利用chrome的xpath插件看能不能匹配到该条数据

我这边用xpath插件可以匹配到数据，

nanhai31 发表于 2021-8-19 10:56

先用xpath插件试试能不能出现数据，其次，中间的有些节点必须删除，否则没有数据，我出现好几次了，在xpath插件上有数据显示，但是就是不能获取数据，后来删掉其中的body就可以了，你可以试试

刘涛发表于 2021-8-19 11:00

nanhai31 发表于 2021-8-19 10:56
先用xpath插件试试能不能出现数据，其次，中间的有些节点必须删除，否则没有数据，我出现好几次了，在xpath ...

是直接删除<body>标签，再去用lxml解析，是吗
还是要删除body标签里面的内容

metaxman 发表于 2021-8-19 11:01

我用的BeautifulSoup解析，然后利用实例对象的select函数，可以获取到你说的内容

刘涛发表于 2021-8-19 11:06

metaxman 发表于 2021-8-19 11:01
我用的BeautifulSoup解析，然后利用实例对象的select函数，可以获取到你说的内容

如果写死了li的class属性是可以取到，但是他这个网站其他的链接，如果class名字是变化的话，就取不到数据了，

metaxman 发表于 2021-8-19 12:11

刘涛发表于 2021-8-19 11:06
如果写死了li的class属性是可以取到，但是他这个网站其他的链接，如果class名字是变化的话，就取不到数据 ...

是的，这也是我现在需要考虑的

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

python爬虫问题