【不懂就问】python中xpath删除多余字符问题

fisk9r 发表于 2020-12-4 10:42

本帖最后由 fisk9r 于 2020-12-4 10:46 编辑

小弟最近迷上爬虫，但最近在爬取过程中遇到问题，找了半天没找到解决办法，跪求大佬支招……

在一个无数层级，杂乱无章的table - tbody - tr -td网站上，通过xpath取到了标题，地址，时间，大概是这样，想请问一下，这个提取到的链接前面的.能否去掉，跪求方法。。谢谢
['第一个标题','第二个标题’,'.saaha/asasg.html','.

fisk9r 发表于 2020-12-4 10:51

replace试过，一用就报错了

xmy00000 发表于 2020-12-4 10:57

你要么分别xpath解析标题、地址什么的。然后你拿到的链接就是字符串，然后replace。要么直接取你['第一个标题','第二个标题’,'.saaha/asasg.html','.]列表的第三个元素使用replace。以后问问题一定要贴出报错代码！

Luker 发表于 2020-12-4 11:04

找点爬虫相关的工具包，使用的时候，导入进去，这中工具包很多的

无敌小车 发表于 2020-12-4 11:19

如果只是去第一个点的话，直接字符串操作就行了。还有为什么replace报错？报错信息发出来一下

ufo0033 发表于 2020-12-4 11:30

```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x if x.startswith(".") else x, li)
print(list(li))
```

lingtian_shi 发表于 2020-12-4 11:30

本帖最后由 lingtian_shi 于 2020-12-4 11:41 编辑

list

lingtian_shi 发表于 2020-12-4 11:38

本帖最后由 lingtian_shi 于 2020-12-4 11:43 编辑

ufo0033 发表于 2020-12-4 11:30
```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x
可以的！6666

zjmks 发表于 2020-12-4 11:51

外行看热闹！路过！

青山绿水meng 发表于 2020-12-4 12:22

xpath取元素可以用@href

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

【不懂就问】python中xpath删除多余字符问题