【不懂就问】python中xpath删除多余字符问题
本帖最后由 fisk9r 于 2020-12-4 10:46 编辑小弟最近迷上爬虫,但最近在爬取过程中遇到问题,找了半天没找到解决办法,跪求大佬支招……
在一个无数层级,杂乱无章的table - tbody - tr -td网站上,通过xpath取到了 标题,地址,时间,大概是这样,想请问一下,这个提取到的链接前面的.能否去掉,跪求方法。。谢谢
['第一个标题','第二个标题’,'.saaha/asasg.html','.
replace试过,一用就报错了 你要么分别xpath解析标题、地址什么的。然后你拿到的链接就是字符串,然后replace。要么直接取你['第一个标题','第二个标题’,'.saaha/asasg.html','.]列表的第三个元素使用replace。以后问问题一定要贴出报错代码! 找点爬虫相关的工具包,使用的时候,导入进去,这中工具包很多的 如果只是去第一个点的话,直接字符串操作就行了。还有为什么replace报错?报错信息发出来一下 ```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x if x.startswith(".") else x, li)
print(list(li))
``` 本帖最后由 lingtian_shi 于 2020-12-4 11:41 编辑
list 本帖最后由 lingtian_shi 于 2020-12-4 11:43 编辑
ufo0033 发表于 2020-12-4 11:30
```
li = ["标题1","标题2","./saaha/asasg1.html","./saaha/asasg2.html"]
li = map(lambda x: x
可以的!6666 外行看热闹!路过! xpath取元素可以用@href
页:
[1]
2