python爬虫标签下内容获取？

double07 · 发表于 2021-4-29 13:23

本帖最后由 double07 于 2021-4-29 13:27 编辑

微信截图_20210429130757.png

在电影网站获取最新电影的标题等相关信息，在爬取标题时，除了正标题外，还有副标题也要抓下来（上图红色箭头）。用xpath分析可知，此副标题在td标签下，直接用xpath获取td标签下的text，会出现其它内容，如img标签、、“（”，“）”、<br>等其它信息一同抓下来(下图）：

请问大佬，能把副标题多余字符（\xa0、“（”、空格）去掉，只显示文本信息？

ShayLuo · 发表于 2021-4-29 13:34

那就只保留最后一个‘ ’里的内容好了

fanvalen · 发表于 2021-4-29 13:53

出现  \xa0 \u4567这类是没解码
其他做替换就好嘛
re.sub([, 、(<img[\s\S]+?>)],'',htm.text)

weiyuhero · 发表于 2021-4-29 14:14

我觉得用xpath 解析更简单

magicianly · 发表于 2021-4-29 14:23

如果只有最后一个，那就是全取然后-1就行了啊

yi5472626 · 发表于 2021-4-29 14:24

用xpath直接提取文本

知心 · 发表于 2021-4-29 14:41

用正则把这些内容过滤一下

double07 · 发表于 2021-4-29 14:48

magicianly 发表于 2021-4-29 14:23
如果只有最后一个，那就是全取然后-1就行了啊

这个思路好，对正则不熟悉，用这个秒解决，感谢感谢

Err0i · 发表于 2021-4-29 14:48

方法很多，但是推荐是正则直接过滤一下

double07 · 发表于 2021-4-29 14:49

fanvalen 发表于 2021-4-29 13:53
出现  \xa0 %u4567这类是没解码
其他做替换就好嘛
re.sub([, 、()],'',htm.text)

谢谢，正则没学好，用5楼兄弟的方法解决了

帐号		自动登录	找回密码
密码			注册[Register]

[求助] python爬虫标签下内容获取？