Sofi 发表于 2020-3-18 01:08

【python 【分享】 爬取一些二刺螈图片 (新手作图)

最近几天在学Python爬虫
找了个图片网站测试爬一下图片
熬夜4小时 明天再继续完善
爬取的画质不是很好,4K画质爬取暂时没有技术
明天学习os模块所以需要手动创建文件夹!!
一定在同目录下创建img文件夹!!!
import requests
import bs4
import re
import os
url_f="http://pic.netbian.com/4kdongman/index_"
url_l=".html"
number=2
#↑网页的页数 第一页与其他页不同 所以暂无法爬取
header={"user-agent":"Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/57.0.2987.98 Safari/537.36"}
#↓获取网页基本信息
def res_html():
    url=url_f+str(number)+url_l
    res=requests.get(url=url,headers=header)
    res.encoding="utf-8"
    return res
#↓将信息初始处理
def bs4_html(res):
    bs4_hou=bs4.BeautifulSoup(res.text,"html.parser")
    return bs4_hou
#将图片的地址存贮到url_list中
def url_list(bs4_hou):
    text_list=[]
    url=[]
    text=""
    url_text=bs4_hou.select("ul",class_="clearfix")
    for temp in url_text:
      text_list.append(temp)
    for temps in text_list:
      text +=str(temps)
    url=re.findall("/uploads/allimg/\d{6}/\d{6}-\w{14}.jpg",text)
    return url
#下载图片
def download(url):
    num=1
    filefname="第 "
    filelname=" 张图片.jpg"
    for temp in url:
      filename="img\\"+filefname+str(num)+filelname
      a=open(filename,"wb")
      durl="http://pic.netbian.com"+str(temp)
      res=requests.get(url=durl)
      a.write(res.content)
      num+=1
      print("已下载 "+str(num) +" 张图片!")
   
download(url_list(bs4_html(res_html())))

第一次制作,很多地方都不会
目前仍在学习Python 之后会做的更好:lol !!!

Zeaf 发表于 2020-3-18 10:34

要登陆才能下载原画...难顶哦{:1_925:}其它都还行
(我只是来看看有什么比较好爬的网站,楼主加油!)

RKCN 发表于 2020-3-19 00:21

这个抓的并不是高清大图,规则没有找到...
页: [1]
查看完整版本: 【python 【分享】 爬取一些二刺螈图片 (新手作图)