【不懂就问】python中xpath删除多余字符问题

fisk9r · 发表于 2020-12-4 10:42

本帖最后由 fisk9r 于 2020-12-4 10:46 编辑

小弟最近迷上爬虫，但最近在爬取过程中遇到问题，找了半天没找到解决办法，跪求大佬支招……

在一个无数层级，杂乱无章的table - tbody - tr -td网站上，通过xpath取到了标题，地址，时间，大概是这样，想请问一下，这个提取到的链接前面的.能否去掉，跪求方法。。谢谢
['第一个标题','第二个标题’,'.saaha/asasg.html','.

fisk9r · 发表于 2020-12-4 10:51

replace试过，一用就报错了

xmy00000 · 发表于 2020-12-4 10:57

你要么分别xpath解析标题、地址什么的。然后你拿到的链接就是字符串，然后replace。要么直接取你['第一个标题','第二个标题’,'.saaha/asasg.html','.]列表的第三个元素使用replace。以后问问题一定要贴出报错代码！

Luker · 发表于 2020-12-4 11:04

找点爬虫相关的工具包，使用的时候，导入进去，这中工具包很多的

无敌小车 · 发表于 2020-12-4 11:19

如果只是去第一个点的话，直接字符串操作就行了。还有为什么replace报错？报错信息发出来一下

ufo0033 · 发表于 2020-12-4 11:30

li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x[1:] if x.startswith(".") else x, li)
print(list(li))

lingtian_shi · 发表于 2020-12-4 11:30

本帖最后由 lingtian_shi 于 2020-12-4 11:41 编辑

list[2][1:]

lingtian_shi · 发表于 2020-12-4 11:38

本帖最后由 lingtian_shi 于 2020-12-4 11:43 编辑

ufo0033 发表于 2020-12-4 11:30
[md]```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x[1: ...

可以的！6666

zjmks · 发表于 2020-12-4 11:51

外行看热闹！路过！

青山绿水meng · 发表于 2020-12-4 12:22

xpath取元素可以用@href

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 【不懂就问】python中xpath删除多余字符问题

免费评分