吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1114|回复: 15
收起左侧

[求助] python爬虫小问题

[复制链接]
城南彼岸花复开 发表于 2021-5-15 11:13
大佬们爬虫爬到这种数据如何筛选不必要的信息啊,比如前面那个/ur如何去掉?
上图是抓取简洁页面的爬虫,直接定位所以比较简单。
如果要抓取一个房屋页面的详细信息然后获取下一个物品的url进行抓取需要改进什么呢?求大佬指教
抓取2.PNG
抓取.PNG

免费评分

参与人数 1吾爱币 +1 收起 理由
dronw + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

a8730151a 发表于 2021-5-15 11:26
我一般用正则表达式去除字符串中不需要的内容~
no-problem 发表于 2021-5-15 11:29
xpath  筛选内容灰常好用  然后用古老的方法split法      简单除暴  不饶脑   

免费评分

参与人数 1热心值 +1 收起 理由
领悟者的涂鸦笔 + 1 etree后直接读标记即可,非常方便

查看全部评分

pangpang02 发表于 2021-5-15 11:30
你这个是因为中文被转义了,我建议先把这个网页的格式格式化一下
ZY.Zhang 发表于 2021-5-15 11:40
本帖最后由 ZY.Zhang 于 2021-5-15 11:46 编辑

[Python] 纯文本查看 复制代码
import requests
from lxml import etree


if __name__ == '__main__': 
    headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://cs.zu.fang.com/'
    page_text = requests.get(url = url,headers = headers).text
    tree = etree.HTML(page_text)
    dl_list = tree.xpath('//*[@id="listBox"]/div[2]/dl')
    fp = open('ershoufang.txt','w',encoding = 'utf-8')
    for dl in dl_list:
        title = dl.xpath('./dd/p[1]/a/text()')[0]
        fp.write(title + '\n\n')
print('---------------Over!------------------')



继续想获取每个房源的具体信息的话,直接取a标签的href属性,前边补充链接即可
洛言 发表于 2021-5-15 12:29
这是被转义了
可以解码

str.decode("unicode_escape") 就行了
如果是 \x 这种,一般为 UTF-8
具体看看什么编码
 楼主| 城南彼岸花复开 发表于 2021-5-15 22:22
a8730151a 发表于 2021-5-15 11:26
我一般用正则表达式去除字符串中不需要的内容~

试过了,然而beautiful的类型是bs4.element.ResultSet不是字符串,就不知道如何匹配了
 楼主| 城南彼岸花复开 发表于 2021-5-15 22:23
pangpang02 发表于 2021-5-15 11:30
你这个是因为中文被转义了,我建议先把这个网页的格式格式化一下

beautifulsoup好像就是把网站转义(似乎)
 楼主| 城南彼岸花复开 发表于 2021-5-15 22:24
ZY.Zhang 发表于 2021-5-15 11:40
[mw_shl_code=python,true]import requests
from lxml import etree

emmm,报错了,是哪里出问题了吗
ZY.Zhang 发表于 2021-5-15 23:08
城南彼岸花复开 发表于 2021-5-15 22:24
emmm,报错了,是哪里出问题了吗

我这边没问题,你复制代码是不是出现问题了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 04:55

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表