好友
阅读权限 10
听众
最后登录 1970-1-1
本帖最后由 hahawangzi 于 2020-4-29 11:05 编辑
soup2 = BeautifulSoup(r2.text,"lxml")
down = soup2.find('div',class_="fed-arti-content fed-padding")
pan=re.compile('https://pan.baidu.com.*')
pan2=re.compile('.*提取码.*?')
for i in down.find_all('p'):
try:
print(re.findall(pan,i.find('a').get('href')))
print(re.findall(pan2,i.getText()))
except:
pass
try:
print(re.findall(pan,i.getText()))
#print(re.findall(pan2,i.getText()))
except:
pass
#if re.findall(pan2,str(i.getText())):
# print("".join(str(re.findall(pan2,str(i.getText()))).split())) 之前匹配出来后面有\xa0的空格符 怎么都去不掉
用正则表达式匹配不到的都会出现【】,,有没有办法不让他显示整个【】
整个网站有些地址是以超链接形式(‘href’)出现,有的直接是文本。。。。所以没办法提取所有,只能用正则来匹配
有办法去掉这个【】吗?
网址是这样的,他所有的下载地址都在P 里面的<a href>里面,但是有些是没有<a href>的直接 有一个文本。
然后遍历的时候 , 遍历到第一个i.find('a').get('href')因为是空的就报错,所以只能用try except 来或许到不是空值的 用if i.find('a').get('href') is not None
print(i.find('a').get('href')) 是不行的
发帖前要善用【论坛搜索 】 功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。