python 抓取网页数据困惑？

double07 发表于 2021-10-20 23:33

本帖最后由 double07 于 2021-10-20 23:38 编辑

抓取该网站(https://cq.ke.com/ershoufang/huahuiyuan/p2/)在此页面下每条房源对应的区域时，发现该页面Response返回区域为两个(江北、渝北)，正常情况下应是一个唯一值（江北区）。目前无从下手，不知道遇到这类情况该怎样处理？有何思路？有其它方法能取出该页房源对应的唯一区域？

↓
正常情况是下图这样的唯一值：

dragonjelly 发表于 2021-10-21 00:33

兄弟，你说的位置已经到这个位置了，解析网页不需要到这个位置，而且你把鼠标移到网页这个位置右键检查就知道了

你乌龟哦 发表于 2021-10-21 01:13

跟上面那哥们说的一样，图一的位置定位到的是房源底部翻页那块的内容，不是头部那块，值不对是正常的
p2/这个包点一下Preview看一下和这个网页是一样的，那去Elements里面定位一下就能发现问题了，再一个观察一下两张图的代码，差不多差了一千行，这个也不太合理，所以你只是找错地方了

double07 发表于 2021-10-21 09:19

你乌龟哦发表于 2021-10-21 01:13
跟上面那哥们说的一样，图一的位置定位到的是房源底部翻页那块的内容，不是头部那块，值不对是正常的
p2/ ...

头部那块位置，每页都有，没办法制定规则进行抓取，找了半天只找到底部这个位唯一位置，但不巧的是部分页面会出现图一多个区域的情况

double07 发表于 2021-10-21 09:20

dragonjelly 发表于 2021-10-21 00:33
兄弟，你说的位置已经到这个位置了，解析网页不需要到这个位置，而且你把鼠标移到网页这个位置右键检查就知 ...
整个网页能识别区域的就这个地方，其它地方没找到或者说没想到更好办法抓取

shenguidao 发表于 2021-10-21 09:26

通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的

viply 发表于 2021-10-21 09:44

头部那一块用正则去匹配是最好的

double07 发表于 2021-10-21 09:54

shenguidao 发表于 2021-10-21 09:26
通过这个
https://cq.ke.com/ershoufang/huahuiyuan/p2/
链接返回的response里面可以找到列表单独的

如果是谢家湾，正确应该是匹配九龙坡，但怎样能根据不同的商圈去自动匹配正确的区域（谢家湾商圈匹配九龙坡区域）？

Teachers 发表于 2021-10-21 09:57

https://i.loli.net/2021/10/21/xyKa87ImwGSsDVB.png

这不是正常的吗

double07 发表于 2021-10-21 10:01

Teachers 发表于 2021-10-21 09:57
这不是正常的吗

懂了，先去试试

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

python 抓取网页数据困惑？