刘涛 发表于 2021-8-19 10:14

python爬虫问题

本帖最后由 刘涛 于 2021-8-19 10:26 编辑

各位大佬,大家好,今天做解析的时候遇到一个lxml解析不了的链接
链接:https://octopart.com/lm358m-on+semiconductor-84409488?r=sp
获取这个页面数据主要是最下面这一块数据

这一块数据,在网页上是能正常用xpath寻找到

但是在python中用lxml使用这个xpath解析不到 如图:

然后查看网页源代码和自己保存下来的页面,

这一块数据确实是存在,但是用lxml解析不出来,我现在就只能从源码里用正则匹配出数据,所以想请问各位大佬,能帮忙看一下怎么样能用lxml解析,然后xpath匹配到吗?
第一次发贴,如有违规,老哥们可以立刻要求我改正

metaxman 发表于 2021-8-19 10:28

本帖最后由 metaxman 于 2021-8-19 10:30 编辑

楼主,你可以先利用chrome的xpath插件看能不能匹配到该条数据

Wang5201314 发表于 2021-8-19 10:30

我这边的xpath是//*[@id="__next"]/div/div/div/ul/li

刘涛 发表于 2021-8-19 10:41

老哥们可以用自己的xpath去lxml上解析试一下,应该出来的结果都是0

刘涛 发表于 2021-8-19 10:44

metaxman 发表于 2021-8-19 10:28
楼主,你可以先利用chrome的xpath插件看能不能匹配到该条数据

我这边用xpath插件可以匹配到数据,

nanhai31 发表于 2021-8-19 10:56

先用xpath插件试试能不能出现数据,其次,中间的有些节点必须删除,否则没有数据,我出现好几次了,在xpath插件上有数据显示,但是就是不能获取数据,后来删掉其中的body就可以了,你可以试试

刘涛 发表于 2021-8-19 11:00

nanhai31 发表于 2021-8-19 10:56
先用xpath插件试试能不能出现数据,其次,中间的有些节点必须删除,否则没有数据,我出现好几次了,在xpath ...

是直接删除<body>标签,再去用lxml解析,是吗
还是要删除body标签里面的内容

metaxman 发表于 2021-8-19 11:01

我用的BeautifulSoup解析,然后利用实例对象的select函数,可以获取到你说的内容

刘涛 发表于 2021-8-19 11:06

metaxman 发表于 2021-8-19 11:01
我用的BeautifulSoup解析,然后利用实例对象的select函数,可以获取到你说的内容

如果写死了li的class属性是可以取到,但是他这个网站其他的链接,如果class名字是变化的话,就取不到数据了,

metaxman 发表于 2021-8-19 12:11

刘涛 发表于 2021-8-19 11:06
如果写死了li的class属性是可以取到,但是他这个网站其他的链接,如果class名字是变化的话,就取不到数据 ...

是的,这也是我现在需要考虑的
页: [1] 2
查看完整版本: python爬虫问题