吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1875|回复: 20
收起左侧

[求助] 爬虫xpath怎么写想要爬取内容的xpath路径啊,挠破头了

[复制链接]
吧唧小脆脆 发表于 2020-1-17 16:28
上代码,很简单的爬虫代码,我想要爬的是简书网某个页面的标题和文章内容网址如下:https://www.jianshu.com/p/db6f9a7e1814想知道标题的xpath路径怎么写
想知道文章内容的xpath路径怎么写
import requests
from lxml import etree
url = 'https://www.jianshu.com/p/db6f9a7e1814'
html = requests.get(url)
selector = etree.HTML(html.text)
infos = selector.xpath('/div/section[1]/h1/text()')
print(infos)
注:代码里面的路径是错的,爬不出来内容
就只想在我的pycharm里可以显示出这两个内容,我琢磨不出来(写两次路径爬两次,分别显示出这两个内容)
1579249563(1).png

求大神教教我

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 吧唧小脆脆 发表于 2020-1-17 16:33
我研究来研究去感觉这段代码没错啊
//div[@id="__next"]/div[1]/div/div/section[1]/h1/text()'
 楼主| 吧唧小脆脆 发表于 2020-1-17 16:34
hbhhwangkun 发表于 2020-1-17 16:36
 楼主| 吧唧小脆脆 发表于 2020-1-17 16:37

还行,多练就好,不过没有人教还是比较难受的
lechenging 发表于 2020-1-17 16:50
chrome 直接 右键copy xpath
minibeetuaman 发表于 2020-1-17 16:57
用beautiful soup,比较顺手
兰色毒药 发表于 2020-1-17 16:58
'//*[@id="__next"]/div[1]/div/div/section[1]/h1/text()'
Wang5201314 发表于 2020-1-17 16:58
‘//*[@id="__next"]/div/div/section[1]/h1/text()'
这样试试
namedlxd 发表于 2020-1-17 17:00
image.png chrome 能直接copy
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 22:20

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表