loadwuai 发表于 2023-11-30 21:21

splash爬wy新闻数据没有完全获取到

lua = """
function main(splash, args)
    splash:set_user_agent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36')
    assert(splash:go(args.url))
    assert(splash:wait(2))
   
    get_display_style = splash:jsfunc([[
      function(){
      return document.getElementsByClassName('load_more_btn').style.display;
      }
    ]])
   
    while (true)
    do
      
      splash:runjs("document.getElementsByClassName('load_more_btn').scrollIntoView(true)")
      
      splash:wait(3)
      
      splash:select(".load_more_btn").click()
      
      display_style = get_display_style()
      
      if(display_style== 'none')
      then
            break
      end
    end
    assert(splash:wait(2))
    return splash:html()   
   
end
"""



url = "http://192.168.0.105:8050/execute"

resp = requests.get(url, params={"url":"https://news.163.com","lua_source": lua})

print(resp.text)
以上代码执行返回后缺了一些内容,通过源网页上全部加载后,可以看到如下图片内容但是通过Python的request请求返回数据中缺少了这么一块数据,只有从下面1个节点开始
通过splash网业端进行网页源码获取,也是可以获取到的。
页: [1]
查看完整版本: splash爬wy新闻数据没有完全获取到