吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 11134|回复: 39
收起左侧

[Python 原创] 【Python】新学习了python,放出第一个福利图爬虫

  [复制链接]
小葫蘆 发表于 2018-4-4 10:07
本帖最后由 wushaominkk 于 2018-4-26 11:47 编辑

学习了一段时间python,终于写了第一个爬虫,用的是python3.6的requests和BeautifulSoup。爬福利图特别有动力啊,这个爬虫只爬取了一个妹子的20多个图集,每个图集分成了文件夹,想要爬其他妹纸的图集请把地址换成其他妹纸的,只限于-亿图全景图库 http://www.yeitu.com/ ,另有可以完善或修改的地方请大神指出,谢谢!
01.PNG

02.PNG

03.PNG

[Python] 纯文本查看 复制代码
import requests
from bs4 import BeautifulSoup
import os

'''http://www.yeitu.com/ # 亿图全景图库'''

url = "http://www.yeitu.com/tag/zuoji_toxic/"
if not os.path.isdir("Toxic"):  # 如没有Toxic文件夹则新建一个
    os.mkdir("Toxic")


def response(url):
    html = str(requests.get(url, timeout=3).content, "utf-8")
    soup = BeautifulSoup(html, "lxml")
    return soup


def download(url, f_path):
    soup = response(url)
    res_list = soup.select(".img_box img")
    for res in res_list:
        # print(res.get("src"))
        try:
            pic = requests.get(res.get("src"))
        except requests.ConnectionError:
            print("【错误】图片无法下载!!!")
        file_name = (res.get("src")).split("/")[-1].replace("?imageslim", "")
        file_path = f_path + "\\" + file_name
        if os.path.isdir(file_path):
            print("【错误】-文件已存在...")
            break
        else:
            with open(file_path, "wb") as fp:
                fp.write(pic.content)
            print("进程", os.getpid(), "【下载完成】-", file_name)


# 读取下一页的链接
def next_pages(url, file_path):
    soup = response(url)
    last_page = soup.select("#pages a")[10].get("href")
    lp = str(last_page).split("_")[-1][0:2]  # 读取最后一页
    # return lp
    for i in range(1, int(lp) + 1):
        if i == 1:
            page = url
        else:
            page = url.split(".html")[0] + "_" + str(i) + ".html"
        download(page, file_path)


# 读取图集目录
def res_html(url):
    if not url == None:
        soup = response(url)
        for res in soup.select(".title a"):
            file_path = "Toxic" + "\\" + res.text
            if not os.path.isdir(file_path):
                os.mkdir(file_path)
            print(res.get("href"), file_path)
            next_pages(res.get("href"), file_path)


if __name__ == "__main__":
    res_html(url)
    print("【全部图片完成下...】")

免费评分

参与人数 13吾爱币 +13 热心值 +13 收起 理由
466 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
1070885984 + 1 + 1 就喜欢你这同样的人才
爷单身1却潇洒 + 1 + 1 谢谢@Thanks!
a4717025 + 1 + 1 我很赞同!
siwuye + 1 + 1 谢谢@Thanks!
hlink1021 + 1 + 1 谢谢@Thanks!
mahuan + 1 + 1 我很赞同!
夏橙M兮 + 1 + 1 谢谢@Thanks!
jshon + 1 + 1 用心讨论,共获提升!
言笑晏晏 + 1 + 1 感谢感谢,正想学习一下python的
rlm96163 + 1 + 1 我尤其喜欢你这种人才
wushaominkk + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
Scheris + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 小葫蘆 发表于 2018-4-4 12:12
十二星 发表于 2018-4-4 11:33
楼主 可否告诉我你在哪学的python3 我在网上找的都是python2  十分感谢啊

链接: https://pan.baidu.com/s/1dFGre3qBMrASPJtA5obgNw 密码: ldlp

免费评分

参与人数 5吾爱币 +5 热心值 +5 收起 理由
alexking52pj + 1 + 1 热心回复!
lixinmingo + 1 + 1 谢谢@Thanks!
风云起舞 + 1 + 1 用心讨论,共获提升!
sherry522 + 1 + 1 我很赞同!
戒为良药 + 1 + 1 我很赞同!

查看全部评分

stop1204 发表于 2018-4-4 10:24
吾爱我的爱 发表于 2018-4-4 10:34
51cbb 发表于 2018-4-4 10:35
谢谢分享哈!
qinyu1242 发表于 2018-4-4 10:38

感谢分享,先保存下来,学习一下
music984 发表于 2018-4-4 10:52
收藏学习!
wushaominkk 发表于 2018-4-4 10:54
请编辑代码插入格式,最好能有截图
[公告]发帖代码插入教程
https://www.52pojie.cn/thread-713042-1-1.html

YXK 发表于 2018-4-4 11:10
最近也在学PYTHON 受教了.
kof21411 发表于 2018-4-4 11:12
下一步就是改进为多线程下载,少年慢慢来
wan_lei2008 发表于 2018-4-4 11:30
继续加油。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-15 15:52

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表