吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1391|回复: 12
收起左侧

[求助] 怎么用python爬取《北京新闻》当天的稿件名称?

[复制链接]
csmy2012 发表于 2020-4-30 12:22
本帖最后由 csmy2012 于 2020-4-30 13:06 编辑

想用python爬取《北京新闻》当天发的所有稿件的名称,该怎么抓取吗?用beautifulsoup抓到的只是页面代码,没有题目。像这种网站该怎么抓取呢????请大佬指点,谢谢。
网址是:https://www.btime.com/btv/btvxw_bjxm

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

154568q2 发表于 2020-4-30 12:27
现在网站一般用的异步,找到那个数据接口就好了
kjq970 发表于 2020-4-30 12:47
确实很多网站都是异步接口方式,但是很显然北京新闻不是
Mr.A 发表于 2020-4-30 13:05
 楼主| csmy2012 发表于 2020-4-30 13:07
Mr.A 发表于 2020-4-30 13:05
用正则不好吗?

抓不到数据啊。好像是用JS传的数据。
天黑我隐身 发表于 2020-4-30 13:20
11.png
22.png
直接GET访问可以拿到数据
[Asm] 纯文本查看 复制代码
https://pc.api.btime.com/btimeweb/infoFlow?callback=jQuery111302443487968915008_1588223558054&list_id=btv_983ba33ce3932fcdf206f0d5bf7cfce1_s0_2020&refresh=1&count=20&expands=pageinfo&_=1588223558056

当然最好去把查询参数是怎么生成的都看一下
yuhan694 发表于 2020-4-30 13:45
本帖最后由 yuhan694 于 2020-4-30 13:50 编辑

https://pc.api.btime.com/btimeweb/infoFlow?callback=jQuery111308533989670206625_1588224572372&list_id=btv_983ba33ce3932fcdf206f0d5bf7cfce1_s0_2020&refresh=1&count=20&expands=pageinfo&_=1588224572374
微信截图_20200430134434.png
refresh是页数,                        list_id后面是年份
callback和_:要js分析吧

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
_style + 1 + 1 热心回复!

查看全部评分

hawkpcnet 发表于 2020-4-30 13:48
都是高手啊,啥都会整
xiaotwins 发表于 2020-4-30 13:57
QQ截图20200430135720.png   xpath
xiaotwins 发表于 2020-4-30 14:01
1.png
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 17:43

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表