怎样用Python爬取源码不显示网页内容的网站啊?
怎样用Python爬取源码没有内容的网站啊?比如《东方新闻》。网址是:http://www.kankanews.com/list/dragonList/dfxw打开页面是这样的,想抓取新闻标题
而源码是这样的,没有标题内容
这个得用Scrapy才能抓取吗?
请大神指教,谢谢! 别抓这个了,直接去抓他的api,F12有一个newslist?act=……,然后伪装浏览器访问一下就有全部的新闻了,还有相关的新闻。编码是Unicode的,需要转一下utf8 标题在这:https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=pdgcai3h&pid=1&platform=pc&size=20×tamp=1635915734&version=1.0&sign=fba21b355a5a19a1e374685692a23633 接口在这
https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=qdjy12py&pid=1&platform=pc&size=20×tamp=1635918923&version=1.0&sign=03619dbc2e21031d22048c026ba880bc
https://api-app.kankanews.com/kankan/pc/relatednews?nonce=lua6lgdp&platform=pc×tamp=1635918923&version=1.0&sign=14eeb5295852e773971f0aaf12226e5a
有直接的接口的,从接口来 https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=1wn34bq7&pid=1&platform=pc&size=20×tamp=1635926547&version=1.0&sign=6a53167b516a5ce7f84f70676f7ae65c 不要抓源码,这种东西一般都是动态加载,直接找借口进接口那信息 直接抓API!他这个都是JS获取内容并写到页面的指定位置的! 直接抓取页面任何语言都是抓不到的! https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=a49ep89a&pid=1&platform=pc&size=20×tamp=1635989512&version=1.0&sign=560af91c797edacf69e8dc854e07572e
https://api-app.kankanews.com/kankan/pc/relatednews?nonce=adu4xawq&platform=pc×tamp=1635989512&version=1.0&sign=8e1aef2b9a6340d83aece7dd1292ef63
有API直接API,JSON解析还方便
页:
[1]
2