fisk9r 发表于 2020-12-4 10:42

【不懂就问】python中xpath删除多余字符问题

本帖最后由 fisk9r 于 2020-12-4 10:46 编辑

小弟最近迷上爬虫,但最近在爬取过程中遇到问题,找了半天没找到解决办法,跪求大佬支招……

在一个无数层级,杂乱无章的table - tbody - tr -td网站上,通过xpath取到了 标题,地址,时间,大概是这样,想请问一下,这个提取到的链接前面的.能否去掉,跪求方法。。谢谢
['第一个标题','第二个标题’,'.saaha/asasg.html','.

fisk9r 发表于 2020-12-4 10:51

replace试过,一用就报错了

xmy00000 发表于 2020-12-4 10:57

你要么分别xpath解析标题、地址什么的。然后你拿到的链接就是字符串,然后replace。要么直接取你['第一个标题','第二个标题’,'.saaha/asasg.html','.]列表的第三个元素使用replace。以后问问题一定要贴出报错代码!

Luker 发表于 2020-12-4 11:04

找点爬虫相关的工具包,使用的时候,导入进去,这中工具包很多的

无敌小车 发表于 2020-12-4 11:19

如果只是去第一个点的话,直接字符串操作就行了。还有为什么replace报错?报错信息发出来一下

ufo0033 发表于 2020-12-4 11:30

```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x if x.startswith(".") else x, li)
print(list(li))
```

lingtian_shi 发表于 2020-12-4 11:30

本帖最后由 lingtian_shi 于 2020-12-4 11:41 编辑

list

lingtian_shi 发表于 2020-12-4 11:38

本帖最后由 lingtian_shi 于 2020-12-4 11:43 编辑

ufo0033 发表于 2020-12-4 11:30
```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x
可以的!6666

zjmks 发表于 2020-12-4 11:51

外行看热闹!路过!

青山绿水meng 发表于 2020-12-4 12:22

xpath取元素可以用@href
页: [1] 2
查看完整版本: 【不懂就问】python中xpath删除多余字符问题