Python通过requests.get获取网页源码的问题

else555 · 发表于 2022-5-5 12:00

本帖最后由 else555 于 2022-5-5 12:01 编辑

import requests
respone = request.get("url")
print(respone.text)
像这种获取网页内容，有些html元素获取不到，是因为页面js还有加载完成。要怎么写代码，等待页面加载完成之后，再获取页面内容呢？

hackerbob · 发表于 2022-5-5 12:55

那些获取不到的是客户端渲染，需要抓包获取链接，直接访问链接获取数据
我感觉你可能也不会抓包，你可以去B站找几个视频看看

sharely88 · 发表于 2022-5-5 13:19

有反爬，你可以用selenium试试。

ccwuax · 发表于 2022-5-5 13:25

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('https://www.cnblogs.com/yoyoketang/')
r.html.render() # 首次使用，自动下载chromium

转自:https://www.cnblogs.com/yoyoketang/p/10663392.html
楼主可以试试

Asra · 发表于 2022-5-5 13:28

请求不到的那些是动态加载的，可以浏览器F12打开抓包，看下请求地址或者API地址，直接去request那个地址才能得到。你直接request网页它只能返回静态的html文本

MyModHeaven · 发表于 2022-5-5 14:08

没有的元素可能是动态加载的，在开发者模式里看看源代码里有没有，如果没有那就是动态加载的。可以用selenium访问网页，

RichardYangZT · 发表于 2022-5-5 15:15

静态内容查看网页源代码就能看到，动态内容如果没有特殊加密在f12网络里选择xhr可以看到具体如何请求的，如果请求加密了就需要用selenium无头浏览器之类的实现了

d8349565 · 发表于 2022-5-5 15:47

需要带header请求

简单的办法：
按照这个网站一键获取
https://curlconverter.com/

易天明 · 发表于 2022-5-5 16:03

js加载的需要抓包，chrome自带抓包功能。

YuanFang0w0 · 发表于 2022-5-5 17:07

这种简单的问题我觉得还是要最基础的扎实一下。多看看教程视频。

帐号		自动登录	找回密码
密码			注册[Register]

[求助] Python通过requests.get获取网页源码的问题