怎样用Python爬取源码不显示网页内容的网站啊？

csmy2012 发表于 2021-11-3 11:56

怎样用Python爬取源码没有内容的网站啊？比如《东方新闻》。网址是：http://www.kankanews.com/list/dragonList/dfxw
打开页面是这样的，想抓取新闻标题

而源码是这样的，没有标题内容

这个得用Scrapy才能抓取吗？
请大神指教，谢谢！

Geoffrey 发表于 2021-11-3 12:48

别抓这个了，直接去抓他的api，F12有一个newslist？act=……，然后伪装浏览器访问一下就有全部的新闻了，还有相关的新闻。编码是Unicode的，需要转一下utf8

青春丿易逝 发表于 2021-11-3 13:04

标题在这：https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=pdgcai3h&pid=1&platform=pc&size=20&timestamp=1635915734&version=1.0&sign=fba21b355a5a19a1e374685692a23633

diaozatian815 发表于 2021-11-3 13:41

jiujiukeji 发表于 2021-11-3 13:57

接口在这
https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=qdjy12py&pid=1&platform=pc&size=20&timestamp=1635918923&version=1.0&sign=03619dbc2e21031d22048c026ba880bc
https://api-app.kankanews.com/kankan/pc/relatednews?nonce=lua6lgdp&platform=pc&timestamp=1635918923&version=1.0&sign=14eeb5295852e773971f0aaf12226e5a

ynboyinkm 发表于 2021-11-3 14:33

有直接的接口的，从接口来

sky_flb 发表于 2021-11-3 16:04

https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=1wn34bq7&pid=1&platform=pc&size=20&timestamp=1635926547&version=1.0&sign=6a53167b516a5ce7f84f70676f7ae65c

狐白本白 发表于 2021-11-3 16:45

不要抓源码，这种东西一般都是动态加载，直接找借口进接口那信息

cyh1993 发表于 2021-11-3 17:11

直接抓API!他这个都是JS获取内容并写到页面的指定位置的! 直接抓取页面任何语言都是抓不到的!

648474073 发表于 2021-11-4 09:33

https://api-app.kankanews.com/kankan/pc/newslist?act=dfxw&nonce=a49ep89a&pid=1&platform=pc&size=20&timestamp=1635989512&version=1.0&sign=560af91c797edacf69e8dc854e07572e
https://api-app.kankanews.com/kankan/pc/relatednews?nonce=adu4xawq&platform=pc&timestamp=1635989512&version=1.0&sign=8e1aef2b9a6340d83aece7dd1292ef63
有API直接API，JSON解析还方便

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

怎样用Python爬取源码不显示网页内容的网站啊？