吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1223|回复: 14
收起左侧

[求助] python 在爬取网页时遇到个奇怪的问题 ?请教一下 有点复杂

[复制链接]
hahawangzi 发表于 2020-4-29 10:01
本帖最后由 hahawangzi 于 2020-4-29 11:05 编辑

soup2 = BeautifulSoup(r2.text,"lxml")
        down = soup2.find('div',class_="fed-arti-content fed-padding")
        pan=re.compile('https://pan.baidu.com.*')
        pan2=re.compile('.*提取码.*?')
        for i in down.find_all('p'):
            try:
            
                print(re.findall(pan,i.find('a').get('href')))
                print(re.findall(pan2,i.getText()))
            except:
                pass
            try:
                print(re.findall(pan,i.getText()))
                #print(re.findall(pan2,i.getText()))
            except:
                pass                           
               #if re.findall(pan2,str(i.getText())):
             #   print("".join(str(re.findall(pan2,str(i.getText()))).split())) 之前匹配出来后面有\xa0的空格符 怎么都去不掉
捕获.JPG 用正则表达式匹配不到的都会出现【】,,有没有办法不让他显示整个【】
整个网站有些地址是以超链接形式(‘href’)出现,有的直接是文本。。。。所以没办法提取所有,只能用正则来匹配
有办法去掉这个【】吗?
捕获.JPG 网址是这样的,他所有的下载地址都在P 里面的<a href>里面,但是有些是没有<a href>的直接 有一个文本。
然后遍历的时候 , 遍历到第一个i.find('a').get('href')因为是空的就报错,所以只能用try except 来或许到不是空值的 用if i.find('a').get('href') is not None
print(i.find('a').get('href')) 是不行的

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

wanglaihuai 发表于 2020-4-29 10:08
加个判断,如果匹配到的数据为空则跳过。
ixsec 发表于 2020-4-29 10:10
xiao智可以不帅 发表于 2020-4-29 10:12
心病 发表于 2020-4-29 10:27
在正则里面带上[]试试,然后为空就跳过
52896009 发表于 2020-4-29 10:51
你内容都不全,提取码在什么位置都不知道
 楼主| hahawangzi 发表于 2020-4-29 11:02
wanglaihuai 发表于 2020-4-29 10:08
加个判断,如果匹配到的数据为空则跳过。

我试过不行的 如果 if re.findall(pan,i.find('a').get('href')) is not None:
                                       print(re.findall(pan,i.find('a').get('href')))
只能 用TRY except
ronle 发表于 2020-4-29 11:03
给个地址,不想去敲里面的内容测试
Fate_XZ 发表于 2020-4-29 11:06
你的python版本是不是比较老,感觉是遇到了编码decode incode的问题
 楼主| hahawangzi 发表于 2020-4-29 11:07
Fate_XZ 发表于 2020-4-29 11:06
你的python版本是不是比较老,感觉是遇到了编码decode incode的问题

3.82的 不是很老的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 17:48

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表