csmy2012 发表于 2021-11-3 11:56

怎样用Python爬取源码不显示网页内容的网站啊?

怎样用Python爬取源码没有内容的网站啊?比如《东方新闻》。网址是:http://www.kankanews.com/list/dragonList/dfxw
打开页面是这样的,想抓取新闻标题

而源码是这样的,没有标题内容

这个得用Scrapy才能抓取吗?
请大神指教,谢谢!

Geoffrey 发表于 2021-11-3 12:48

别抓这个了,直接去抓他的api,F12有一个newslist?act=……,然后伪装浏览器访问一下就有全部的新闻了,还有相关的新闻。编码是Unicode的,需要转一下utf8

青春丿易逝 发表于 2021-11-3 13:04

标题在这:https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=pdgcai3h&pid=1&platform=pc&size=20&timestamp=1635915734&version=1.0&sign=fba21b355a5a19a1e374685692a23633

diaozatian815 发表于 2021-11-3 13:41

jiujiukeji 发表于 2021-11-3 13:57

接口在这
https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=qdjy12py&pid=1&platform=pc&size=20&timestamp=1635918923&version=1.0&sign=03619dbc2e21031d22048c026ba880bc
https://api-app.kankanews.com/kankan/pc/relatednews?nonce=lua6lgdp&platform=pc&timestamp=1635918923&version=1.0&sign=14eeb5295852e773971f0aaf12226e5a

ynboyinkm 发表于 2021-11-3 14:33

有直接的接口的,从接口来

sky_flb 发表于 2021-11-3 16:04

https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=1wn34bq7&pid=1&platform=pc&size=20&timestamp=1635926547&version=1.0&sign=6a53167b516a5ce7f84f70676f7ae65c

狐白本白 发表于 2021-11-3 16:45

不要抓源码,这种东西一般都是动态加载,直接找借口进接口那信息

cyh1993 发表于 2021-11-3 17:11

直接抓API!他这个都是JS获取内容并写到页面的指定位置的!      直接抓取页面任何语言都是抓不到的!

648474073 发表于 2021-11-4 09:33

https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=a49ep89a&pid=1&platform=pc&size=20&timestamp=1635989512&version=1.0&sign=560af91c797edacf69e8dc854e07572e
https://api-app.kankanews.com/kankan/pc/relatednews?nonce=adu4xawq&platform=pc&timestamp=1635989512&version=1.0&sign=8e1aef2b9a6340d83aece7dd1292ef63
有API直接API,JSON解析还方便
页: [1] 2
查看完整版本: 怎样用Python爬取源码不显示网页内容的网站啊?