python爬虫问题
本帖最后由 刘涛 于 2021-8-19 10:26 编辑各位大佬,大家好,今天做解析的时候遇到一个lxml解析不了的链接
链接:https://octopart.com/lm358m-on+semiconductor-84409488?r=sp
获取这个页面数据主要是最下面这一块数据
这一块数据,在网页上是能正常用xpath寻找到
但是在python中用lxml使用这个xpath解析不到 如图:
然后查看网页源代码和自己保存下来的页面,
这一块数据确实是存在,但是用lxml解析不出来,我现在就只能从源码里用正则匹配出数据,所以想请问各位大佬,能帮忙看一下怎么样能用lxml解析,然后xpath匹配到吗?
第一次发贴,如有违规,老哥们可以立刻要求我改正 本帖最后由 metaxman 于 2021-8-19 10:30 编辑
楼主,你可以先利用chrome的xpath插件看能不能匹配到该条数据 我这边的xpath是//*[@id="__next"]/div/div/div/ul/li 老哥们可以用自己的xpath去lxml上解析试一下,应该出来的结果都是0 metaxman 发表于 2021-8-19 10:28
楼主,你可以先利用chrome的xpath插件看能不能匹配到该条数据
我这边用xpath插件可以匹配到数据,
先用xpath插件试试能不能出现数据,其次,中间的有些节点必须删除,否则没有数据,我出现好几次了,在xpath插件上有数据显示,但是就是不能获取数据,后来删掉其中的body就可以了,你可以试试
nanhai31 发表于 2021-8-19 10:56
先用xpath插件试试能不能出现数据,其次,中间的有些节点必须删除,否则没有数据,我出现好几次了,在xpath ...
是直接删除<body>标签,再去用lxml解析,是吗
还是要删除body标签里面的内容 我用的BeautifulSoup解析,然后利用实例对象的select函数,可以获取到你说的内容 metaxman 发表于 2021-8-19 11:01
我用的BeautifulSoup解析,然后利用实例对象的select函数,可以获取到你说的内容
如果写死了li的class属性是可以取到,但是他这个网站其他的链接,如果class名字是变化的话,就取不到数据了, 刘涛 发表于 2021-8-19 11:06
如果写死了li的class属性是可以取到,但是他这个网站其他的链接,如果class名字是变化的话,就取不到数据 ...
是的,这也是我现在需要考虑的
页:
[1]
2