吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1000|回复: 15
收起左侧

[求助] Python request_html模块 遇到问题求解!

[复制链接]
xuyincheng 发表于 2022-2-11 22:00
[Python] 纯文本查看 复制代码
from requests_html import HTMLSession

headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"
    }
session = HTMLSession()


def get_content(url):
    res = session.get(url, headers=headers)
    html = res.html
    html.encoding="gbk"
    h1 = html.find("h1", first=True)
    print(h1.html)
    

url = "https://www.tingshuge.com/book/37189/23504516.html"
get_content(url)


用find匹配元素,匹配结果是从那个元素开始以下所有内容。。。

是我的用法问题,还是库问题。。。求解!!

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

kof21411 发表于 2022-2-11 22:18
print(h1.text)
q124444 发表于 2022-2-11 22:28
狒狒大魔王 发表于 2022-2-11 22:33
 楼主| xuyincheng 发表于 2022-2-11 22:58

.text 是提取innerText的...
 楼主| xuyincheng 发表于 2022-2-11 23:01
q124444 发表于 2022-2-11 22:28
从h1往下匹配所有,有什么问题吗?

我的意思是,它返回了第一个h1元素下面的所有HTML内容;并不是匹配所有h1
 楼主| xuyincheng 发表于 2022-2-11 23:06
狒狒大魔王 发表于 2022-2-11 22:33
可以了解下xpath或者jsoup 处理html更轻松

这个是通过CSS选择器来定位的,还是挺方便的....
PeppaPig 发表于 2022-2-12 01:12
h1 = html.xpath("//*[@id='book']/div[2]/h1/text()")
修补.png
 楼主| xuyincheng 发表于 2022-2-12 13:32
PeppaPig 发表于 2022-2-12 01:12
h1 = html.xpath("//*[@id='book']/div[2]/h1/text()")

这样确实可以,但是如果只取到h1的话就成了这样...
无标题.png
PeppaPig 发表于 2022-2-12 22:51
xuyincheng 发表于 2022-2-12 13:32
这样确实可以,但是如果只取到h1的话就成了这样...

你看下,问题不大
ret.png
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 16:42

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表