倾情 发表于 2021-1-26 09:32

解决小伙伴的一个2020年的问题


这里回复一个小伙伴的问题(好长时间的一个问题,不知道解决没,这里也算笔记记录一下吧),你可以参考一下,另外VScode是可以用Xpath的
(最近实验较多,业务繁忙,很少发帖子了,2021年即可恢复)

# -*- coding:UTF-8 -*-
import requests
from lxml import etree


# 1 获取网页数据
req = requests.get("www.baidu.com")
# 2 解析网页
html = etree.HTML(req.content,etree.HTMLParser())
# 3 通过xpath语法获取指定数据
resultIp = html.xpath('//div[@id="list"]/table/tbody/tr/td[@data-title="IP"]/text()')

minibeetuaman 发表于 2021-1-26 11:13

最后都是由pythonw.exe执行脚本文件,跟用哪种IDE没关系。建议用BeautifulSoup吧

hinome 发表于 2021-1-26 09:50

本帖最后由 hinome 于 2021-1-26 09:51 编辑

学习一下。解决2020问题。。。

jiangpeng59 发表于 2021-1-26 10:19

这提问本身就很奇怪,python的语言特性咋会和代码编辑器相关呢

opst4525 发表于 2021-1-26 11:01

百度有反爬吧?大概

cwl 发表于 2021-1-26 11:05

xpath和编辑器有关系?文本编辑器都可以用啊

可控核聚变 发表于 2021-1-26 22:09

我开始就是用的bs4,后来学了xpath,觉得xpath比bs4好用,速度挺快。后来一哥们让我试试bs4+css选择器,我试了几次,果然真香。xpath还要一顿@@@ /////,bs4+css选择器只要 .# 选完,代码写起来真是优雅多了。

cdycl 发表于 2021-1-26 22:41

这两都差不多,真正的爬虫还是用的jQ
页: [1]
查看完整版本: 解决小伙伴的一个2020年的问题