python 抓取网页数据困惑?
本帖最后由 double07 于 2021-10-20 23:38 编辑抓取该网站(https://cq.ke.com/ershoufang/huahuiyuan/p2/)在此页面下每条房源对应的区域时,发现该页面Response返回区域为两个(江北、渝北),正常情况下应是一个唯一值(江北区)。目前无从下手,不知道遇到这类情况该怎样处理?有何思路?有其它方法能取出该页房源对应的唯一区域?
↓
正常情况是下图这样的唯一值:
兄弟,你说的位置已经到这个位置了,解析网页不需要到这个位置,而且你把鼠标移到网页这个位置右键检查就知道了 跟上面那哥们说的一样,图一的位置定位到的是房源底部翻页那块的内容,不是头部那块,值不对是正常的
p2/这个包点一下Preview看一下和这个网页是一样的,那去Elements里面定位一下就能发现问题了,再一个观察一下两张图的代码,差不多差了一千行,这个也不太合理,所以你只是找错地方了 你乌龟哦 发表于 2021-10-21 01:13
跟上面那哥们说的一样,图一的位置定位到的是房源底部翻页那块的内容,不是头部那块,值不对是正常的
p2/ ...
头部那块位置,每页都有,没办法制定规则进行抓取,找了半天只找到底部这个位唯一位置,但不巧的是部分页面会出现图一多个区域的情况 dragonjelly 发表于 2021-10-21 00:33
兄弟,你说的位置已经到这个位置了,解析网页不需要到这个位置,而且你把鼠标移到网页这个位置右键检查就知 ...
整个网页能识别区域的就这个地方,其它地方没找到或者说没想到更好办法抓取 通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的 头部那一块用正则去匹配是最好的 shenguidao 发表于 2021-10-21 09:26
通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的
如果是谢家湾,正确应该是匹配九龙坡,但怎样能根据不同的商圈去自动匹配正确的区域(谢家湾商圈匹配九龙坡区域)?
https://i.loli.net/2021/10/21/xyKa87ImwGSsDVB.png
这不是正常的吗 Teachers 发表于 2021-10-21 09:57
这不是正常的吗
懂了,先去试试
页:
[1]
2