吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1343|回复: 16
收起左侧

[求助] python爬虫标签下内容获取?

[复制链接]
double07 发表于 2021-4-29 13:23
本帖最后由 double07 于 2021-4-29 13:27 编辑

微信截图_20210429130757.png

在电影网站获取最新电影的标题等相关信息,在爬取标题时,除了正标题外,还有副标题也要抓下来(上图红色箭头)。用xpath分析可知,此副标题在td标签下,直接用xpath获取td标签下的text,会出现其它内容,如img标签、 、“(”,“)”、<br>等其它信息一同抓下来(下图):

请问大佬,能把副标题多余字符(\xa0、“(”、空格)去掉,只显示文本信息?
微信截图_20210429132100.png

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

ShayLuo 发表于 2021-4-29 13:34
那就只保留最后一个‘ ’里的内容好了
fanvalen 发表于 2021-4-29 13:53
出现&nbsp; \xa0 \u4567这类是没解码
其他做替换就好嘛
re.sub([, 、(<img[\s\S]+?>)],'',htm.text)
weiyuhero 发表于 2021-4-29 14:14
magicianly 发表于 2021-4-29 14:23
如果只有最后一个,那就是全取然后-1就行了啊
yi5472626 发表于 2021-4-29 14:24
用xpath直接提取文本  
知心 发表于 2021-4-29 14:41
用正则把这些内容过滤一下
 楼主| double07 发表于 2021-4-29 14:48
magicianly 发表于 2021-4-29 14:23
如果只有最后一个,那就是全取然后-1就行了啊

这个思路好,对正则不熟悉,用这个秒解决,感谢感谢
Err0i 发表于 2021-4-29 14:48
方法很多,但是推荐是正则直接过滤一下
 楼主| double07 发表于 2021-4-29 14:49
fanvalen 发表于 2021-4-29 13:53
出现&nbsp; \xa0 %u4567这类是没解码
其他做替换就好嘛
re.sub([, 、()],'',htm.text)

谢谢,正则没学好,用5楼兄弟的方法解决了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 02:25

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表