double07 发表于 2021-10-20 23:33

python 抓取网页数据困惑?

本帖最后由 double07 于 2021-10-20 23:38 编辑

抓取该网站(https://cq.ke.com/ershoufang/huahuiyuan/p2/)在此页面下每条房源对应的区域时,发现该页面Response返回区域为两个(江北、渝北),正常情况下应是一个唯一值(江北区)。目前无从下手,不知道遇到这类情况该怎样处理?有何思路?有其它方法能取出该页房源对应的唯一区域?

       ↓
正常情况是下图这样的唯一值:

dragonjelly 发表于 2021-10-21 00:33

兄弟,你说的位置已经到这个位置了,解析网页不需要到这个位置,而且你把鼠标移到网页这个位置右键检查就知道了

你乌龟哦 发表于 2021-10-21 01:13

跟上面那哥们说的一样,图一的位置定位到的是房源底部翻页那块的内容,不是头部那块,值不对是正常的
p2/这个包点一下Preview看一下和这个网页是一样的,那去Elements里面定位一下就能发现问题了,再一个观察一下两张图的代码,差不多差了一千行,这个也不太合理,所以你只是找错地方了

double07 发表于 2021-10-21 09:19

你乌龟哦 发表于 2021-10-21 01:13
跟上面那哥们说的一样,图一的位置定位到的是房源底部翻页那块的内容,不是头部那块,值不对是正常的
p2/ ...

头部那块位置,每页都有,没办法制定规则进行抓取,找了半天只找到底部这个位唯一位置,但不巧的是部分页面会出现图一多个区域的情况

double07 发表于 2021-10-21 09:20

dragonjelly 发表于 2021-10-21 00:33
兄弟,你说的位置已经到这个位置了,解析网页不需要到这个位置,而且你把鼠标移到网页这个位置右键检查就知 ...
整个网页能识别区域的就这个地方,其它地方没找到或者说没想到更好办法抓取

shenguidao 发表于 2021-10-21 09:26

通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的

viply 发表于 2021-10-21 09:44

头部那一块用正则去匹配是最好的

double07 发表于 2021-10-21 09:54

shenguidao 发表于 2021-10-21 09:26
通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的

如果是谢家湾,正确应该是匹配九龙坡,但怎样能根据不同的商圈去自动匹配正确的区域(谢家湾商圈匹配九龙坡区域)?

Teachers 发表于 2021-10-21 09:57

https://i.loli.net/2021/10/21/xyKa87ImwGSsDVB.png

这不是正常的吗

double07 发表于 2021-10-21 10:01

Teachers 发表于 2021-10-21 09:57
这不是正常的吗

懂了,先去试试
页: [1] 2
查看完整版本: python 抓取网页数据困惑?