splash爬wy新闻数据没有完全获取到
lua = """function main(splash, args)
splash:set_user_agent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36')
assert(splash:go(args.url))
assert(splash:wait(2))
get_display_style = splash:jsfunc([[
function(){
return document.getElementsByClassName('load_more_btn').style.display;
}
]])
while (true)
do
splash:runjs("document.getElementsByClassName('load_more_btn').scrollIntoView(true)")
splash:wait(3)
splash:select(".load_more_btn").click()
display_style = get_display_style()
if(display_style== 'none')
then
break
end
end
assert(splash:wait(2))
return splash:html()
end
"""
url = "http://192.168.0.105:8050/execute"
resp = requests.get(url, params={"url":"https://news.163.com","lua_source": lua})
print(resp.text)
以上代码执行返回后缺了一些内容,通过源网页上全部加载后,可以看到如下图片内容但是通过Python的request请求返回数据中缺少了这么一块数据,只有从下面1个节点开始
通过splash网业端进行网页源码获取,也是可以获取到的。
页:
[1]