吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1750|回复: 9
收起左侧

[求助] 【不懂就问】python中xpath删除多余字符问题

[复制链接]
fisk9r 发表于 2020-12-4 10:42
本帖最后由 fisk9r 于 2020-12-4 10:46 编辑

小弟最近迷上爬虫,但最近在爬取过程中遇到问题,找了半天没找到解决办法,跪求大佬支招……

在一个无数层级,杂乱无章的table - tbody - tr -td网站上,通过xpath取到了 标题,地址,时间,大概是这样,想请问一下,这个提取到的链接前面的.能否去掉,跪求方法。。谢谢
['第一个标题','第二个标题’,'.saaha/asasg.html','.

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| fisk9r 发表于 2020-12-4 10:51
replace试过,一用就报错了
xmy00000 发表于 2020-12-4 10:57
你要么分别xpath解析标题、地址什么的。然后你拿到的链接就是字符串,然后replace。要么直接取你['第一个标题','第二个标题’,'.saaha/asasg.html','.]列表的第三个元素使用replace。以后问问题一定要贴出报错代码!
Luker 发表于 2020-12-4 11:04
找点爬虫相关的工具包,使用的时候,导入进去,这中工具包很多的
无敌小车 发表于 2020-12-4 11:19
如果只是去第一个点的话,直接字符串操作就行了。还有为什么replace报错?报错信息发出来一下
ufo0033 发表于 2020-12-4 11:30
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x[1:] if x.startswith(".") else x, li)
print(list(li))

免费评分

参与人数 1热心值 +1 收起 理由
fisk9r + 1 谢谢@Thanks!

查看全部评分

lingtian_shi 发表于 2020-12-4 11:30
本帖最后由 lingtian_shi 于 2020-12-4 11:41 编辑

list[2][1:]
lingtian_shi 发表于 2020-12-4 11:38
本帖最后由 lingtian_shi 于 2020-12-4 11:43 编辑
ufo0033 发表于 2020-12-4 11:30
[md]```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x[1: ...

可以的!6666
zjmks 发表于 2020-12-4 11:51
外行看热闹!路过!
青山绿水meng 发表于 2020-12-4 12:22
xpath取元素可以用@href
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 09:32

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表