爬虫问题求助
爬虫地址是http://vip.stock.finance.sina.com.cn/mkt/, 主要是获取所有概念板块的成分股数据 ,不知是不是二级菜单 ,试着分析 下,没找到关键点,概念地址生成的后缀码是怎样生成的,请求大佬有没有相关的教程学习下,或者帮忙 分析 是那个关键点,我用浏览器F12点元素获取无法 跳到二级菜单上,不知要用什么 方式来操作,请求方法,谢谢了这是概念是地址构造:
http://vip.stock.finance.sina.com.cn/mkt/#chgn_730462
http://vip.stock.finance.sina.com.cn/mkt/#chgn_701027
<a href="javascript:void(0);" hidefocus="true" class="parentLink">热门概念</a>
<dd><a href="javascript:void(0);" hidefocus="true">冬奥会概念</a></dd>
<dd><a href="javascript:void(0);" hidefocus="true">空客概念</a></dd>
<th class="sort_down"><atarget="_blank">sh600219</a></th
GET数据: http://hq.sinajs.cn/rn=ff7cc&list=sh600219,sh600819,sh601021,sh688333,sz000099,sz000415,sz000697,sz000965,sz002023,sz002171,sz002297,sz002337,sz002520,sz300159,sz300424,sz300696 http://vip.stock.finance.sina.com.cn/quotes_service/api/json_v2.php/Market_Center.getHQNodes
这样就可以了吧,剩下的不用了吧 直接请求 这个地址 ,拿到编码 拼接地址跳转 本帖最后由 涛之雨 于 2021-10-19 18:03 编辑
首先是
http://vip.stock.finance.sina.com.cn/quotes_service/api/json_v2.php/Market_Center.getHQNodes
如果只需要首页的话就楼上的就行,首页好像也有每个版块有个api,请求解析去就好了
我下面的内容是获取全部的数据(估计数据特别多,有可能需要随机ua啊演示代{过}{滤}理ip啊啥的,不然容易暴毙)
获取板块信息(对比分层情况)
然后是请求板块(比如随便找了个创业板)
看一眼请求数据,没有混淆加密和校验(具体的还待测试)
什么类型创业板缩写啊,第一页啊,一页40个啊都直接猜
不是很清楚每一项是不是你需要的,反正至少这个编号就有了,去拼接一下就可以到你找到的那个接口里面去获取数据了 楼上正解 没有加密 只是动态加载的数据要不就用selenium 慢慢爬要不就用request拼接没加密难度不大 涛之雨 发表于 2021-10-19 18:01
首先是
感谢各位大佬的解答 ,有几个问题在请教下;具体的操作能在详细点吗,主要是怎样分析 出这关键点的,这类型是JSON 还是GET方式 。 molinchz 发表于 2021-10-19 20:28
感谢各位大佬的解答 ,有几个问题在请教下;具体的操作能在详细点吗,主要是怎样分析 出这关键点的,这类 ...
分析的话就是看界面请求,一般都是fetch/xhr请求,所以可以到控制台的网络请求里筛选fetch/xhr然后就这个几个。如果加密或者有交易再看算法之类的,然后就是找网页的流程,说白了就是
(参数)从哪来,(请求)到哪去
最后一句没看懂,什么叫做
“这类型是JSON 还是GET方式 。”
返回的数据格式是json,请求的方式是get没什么可疑惑的吧 涛之雨 发表于 2021-10-20 00:23
分析的话就是看界面请求,一般都是fetch/xhr请求,所以可以到控制台的网络请求里筛选fetch/xhr然后就这个 ...
感谢大佬解答 ,昨晚已瞎搞看到数据 了, 在问下: 动态有什么 特点吗,多次请求头会变吗,这块刚学,不是很懂;另外,抓包分析工具给推荐 个,爬虫的教程也推荐个,网络上很多,有点迷茫!!!! molinchz 发表于 2021-10-20 09:27
感谢大佬解答 ,昨晚已瞎搞看到数据 了, 在问下: 动态有什么 特点吗,多次请求头会变吗,这块刚学,不 ...
(我本人没看过什么教程,需要都是自己直接爬的。。。所以也不知道有什么教程)
动态的话就是有一些参数,比如什么sign啊,v啊之类的(可能是别的什么字母,只是这个比较有代表性)
最简单的就是你请求的时候会跟随数据变动。
抓包的话如果是网页最好就Chrome(有人说Firefox好用,没试过,Firefox好像兼容性不是特别好,需要页面单独适配)
反正就是一句话,不管看什么教程都要动手练习,类似的也好,完全一样的也好。 涛之雨 发表于 2021-10-20 11:04
(我本人没看过什么教程,需要都是自己直接爬的。。。所以也不知道有什么教程)
动态的话就是有一些参 ...
请教大佬,程序数据已清洗出来,但是有个问题,就是程序 的前面请求头的,什么 参数的构造,这个怎么搞?用的是request的模块 ,谢谢
页:
[1]
2