吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1310|回复: 11
收起左侧

[求助] python 抓取网页数据困惑?

[复制链接]
double07 发表于 2021-10-20 23:33
本帖最后由 double07 于 2021-10-20 23:38 编辑

抓取该网站(https://cq.ke.com/ershoufang/huahuiyuan/p2/)在此页面下每条房源对应的区域时,发现该页面Response返回区域为两个(江北、渝北),正常情况下应是一个唯一值(江北区)。目前无从下手,不知道遇到这类情况该怎样处理?有何思路?有其它方法能取出该页房源对应的唯一区域?
555.png
       ↓
正常情况是下图这样的唯一值:
image.png

免费评分

参与人数 2吾爱币 +2 热心值 +2 收起 理由
为之奈何? + 1 + 1 我很赞同!
chngchun + 1 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

dragonjelly 发表于 2021-10-21 00:33
兄弟,你说的位置已经到这个位置了,解析网页不需要到这个位置,而且你把鼠标移到网页这个位置右键检查就知道了
QQ截图20211021002805.png
你乌龟哦 发表于 2021-10-21 01:13
跟上面那哥们说的一样,图一的位置定位到的是房源底部翻页那块的内容,不是头部那块,值不对是正常的
p2/这个包点一下Preview看一下和这个网页是一样的,那去Elements里面定位一下就能发现问题了,再一个观察一下两张图的代码,差不多差了一千行,这个也不太合理,所以你只是找错地方了
 楼主| double07 发表于 2021-10-21 09:19
你乌龟哦 发表于 2021-10-21 01:13
跟上面那哥们说的一样,图一的位置定位到的是房源底部翻页那块的内容,不是头部那块,值不对是正常的
p2/ ...

头部那块位置,每页都有,没办法制定规则进行抓取,找了半天只找到底部这个位唯一位置,但不巧的是部分页面会出现图一多个区域的情况
 楼主| double07 发表于 2021-10-21 09:20
dragonjelly 发表于 2021-10-21 00:33
兄弟,你说的位置已经到这个位置了,解析网页不需要到这个位置,而且你把鼠标移到网页这个位置右键检查就知 ...

整个网页能识别区域的就这个地方,其它地方没找到或者说没想到更好办法抓取
shenguidao 发表于 2021-10-21 09:26
通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的
微信图片_20211021092542.png
viply 发表于 2021-10-21 09:44
头部那一块用正则去匹配是最好的
 楼主| double07 发表于 2021-10-21 09:54
shenguidao 发表于 2021-10-21 09:26
通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的

如果是谢家湾,正确应该是匹配九龙坡,但怎样能根据不同的商圈去自动匹配正确的区域(谢家湾商圈匹配九龙坡区域)?
image.png
Teachers 发表于 2021-10-21 09:57


这不是正常的吗
 楼主| double07 发表于 2021-10-21 10:01

懂了,先去试试
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 20:36

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表