吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2093|回复: 2
收起左侧

[Python 转载] 【python 【分享】 爬取一些二刺螈图片 (新手作图)

[复制链接]
Sofi 发表于 2020-3-18 01:08
最近几天在学Python爬虫
找了个图片网站测试爬一下图片
熬夜4小时 明天再继续完善
爬取的画质不是很好,4K画质爬取暂时没有技术
明天学习os模块所以需要手动创建文件夹!!
一定在同目录下创建img文件夹!!!

import requests
import bs4
import re
import os
urlf="http://pic.netbian.com/4kdongman/index"
url_l=".html"
number=2

↑网页的页数 第一页与其他页不同 所以暂无法爬取

header={"user-agent":"Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/57.0.2987.98 Safari/537.36"}

↓获取网页基本信息

def res_html():
url=url_f+str(number)+url_l
res=requests.get(url=url,headers=header)
res.encoding="utf-8"
return res

↓将信息初始处理

def bs4_html(res):
bs4_hou=bs4.BeautifulSoup(res.text,"html.parser")
return bs4_hou

将图片的地址存贮到url_list中

def url_list(bs4_hou):
text_list=[]
url=[]
text=""
url_text=bs4hou.select("ul",class="clearfix")
for temp in url_text:
text_list.append(temp)
for temps in text_list:
text +=str(temps)
url=re.findall("/uploads/allimg/\d{6}/\d{6}-\w{14}.jpg",text)
return url

下载图片

def download(url):
num=1
filefname="第 "
filelname=" 张图片.jpg"
for temp in url:
filename="img\"+filefname+str(num)+filelname
a=open(filename,"wb")
durl="http://pic.netbian.com"+str(temp)
res=requests.get(url=durl)
a.write(res.content)
num+=1
print("已下载 "+str(num) +" 张图片!")

download(url_list(bs4_html(res_html())))



第一次制作,很多地方都不会
目前仍在学习Python 之后会做的更好:lol !!!

免费评分

参与人数 2吾爱币 +2 热心值 +1 收起 理由
嚯嚯嚯000 + 1 + 1 用心讨论,共获提升!
Zeaf + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

Zeaf 发表于 2020-3-18 10:34
要登陆才能下载原画...难顶哦其它都还行
(我只是来看看有什么比较好爬的网站,楼主加油!)
RKCN 发表于 2020-3-19 00:21
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-17 01:30

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表