Python通过requests.get获取网页源码的问题
本帖最后由 else555 于 2022-5-5 12:01 编辑import requests
respone = request.get("url")
print(respone.text)
像这种获取网页内容,有些html元素获取不到,是因为页面js还有加载完成。要怎么写代码,等待页面加载完成之后,再获取页面内容呢? 那些获取不到的是客户端渲染,需要抓包获取链接,直接访问链接获取数据
我感觉你可能也不会抓包,你可以去B站找几个视频看看 有反爬,你可以用selenium试试。 from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://www.cnblogs.com/yoyoketang/')
r.html.render()# 首次使用,自动下载chromium
转自:https://www.cnblogs.com/yoyoketang/p/10663392.html
楼主可以试试 请求不到的那些是动态加载的,可以浏览器F12打开抓包,看下请求地址或者API地址,直接去request那个地址才能得到。你直接request网页它只能返回静态的html文本 没有的元素可能是动态加载的,在开发者模式里看看源代码里有没有,如果没有那就是动态加载的。可以用selenium访问网页, 静态内容查看网页源代码就能看到,动态内容如果没有特殊加密在f12网络里选择xhr可以看到具体如何请求的,如果请求加密了就需要用selenium无头浏览器之类的实现了 需要带header请求
简单的办法:
按照这个网站一键获取
https://curlconverter.com/ js加载的需要抓包,chrome自带抓包功能。 这种简单的问题我觉得还是要最基础的扎实一下。多看看教程视频。
页:
[1]
2