使用requests爬取糗图百科的热图

一肖没有脾气 · 发表于 2021-4-13 16:23

import requests
import re
import os

if __name__ == "__main__":
headers = {
      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
}
#在当下目录下生成文件夹qiutu，用来保存爬取的图片
if not os.path.exists("./qiutu"): #path.exists用来判断目录是否存在
      os.mkdir("./qiutu")          #生成目录qiutu
#设置一个通用的url模板
url = "https://www.qiushibaike.com/imgrank/page/%d/"
for pageNum in range(1,36):
      #构建一个对应页数的url
      new_url = format(url%pageNum)
      page_text = requests.get(url=new_url,headers=headers).text
      ex = r'<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
      img_src_list = re.findall(ex, page_text,re.S)
      # print(img_src_list)
      for src in img_src_list:
         # 拼接网址
         src1 = "https:"+src
         img_data = requests.get(url=src1,headers=headers).content
         # 生成图片名称
         img_name = src1.split("/")[-1]
         #生成路径
         img_Path = "./qiutu/" + img_name
         with open(img_Path,"wb")as fp:
            fp.write(img_data)
            print(img_name,"下载成功")

Jack-yu · 发表于 2021-4-13 17:39

不错不错继续加油

kxs2018 · 发表于 2021-4-13 18:38

不错，就是代码格式看起来有点奇怪

xiong779 · 发表于 2021-4-14 12:57

謝謝分享

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 使用requests爬取糗图百科的热图

免费评分