吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 21430|回复: 154
收起左侧

[Python 转载] python爬虫——抓取煎蛋网ooxx妹子图的一个小工具

    [复制链接]
吟一曲苍穹 发表于 2020-1-10 00:32
本帖最后由 吟一曲苍穹 于 2020-1-10 00:33 编辑

一点学习成果,仅限学习交流!

煎蛋妹子图.zip (1.51 KB, 下载次数: 653)
一、源码:
[Python] 纯文本查看 复制代码
import urllib.request
import os
import random
import time


def get_page(html):
    # 获取下一页链接
    start1 = str(html).find("Older Comments")
    stop1 = str(html).find("class", start1)

    url = "http:" + html[start1 + 22:stop1 - 2]
    return url


def get_img(html):
    # 获取所有图片地址 (原图)
    imgs = []
    img_sta = 0
    img_end = 0
    while 1:
        img_end = str(html).find("view_img_link", img_end + 10)
        if img_end == -1:
            break
        img_sta = str(html).find("righttext", img_sta + 10)

        url = "http:" + html[img_sta + 62:img_end - 25]
        imgs.append(url)
    return imgs


def save_img(urls, img_dir):
    if os.path.isdir(img_dir):
        del_dir(img_dir)
    os.mkdir(img_dir)
    os.chdir(img_dir)
    a = 1
    for i in urls:
        print("*" * 60)
        print("打开链接:", i)

        wjm_sta = i.find("large")
        wjm = i[wjm_sta + 6:]  # 获取文件名

        img = open_url(i)
        with open(wjm, "wb") as f:
            f.write(img)
        print("保存成功:", a)
        a += 1
        print("关闭链接,挂起程序2s")
        time.sleep(1)

    os.chdir("../")  # 保存完毕切回xxoo目录


def open_url(url):
    agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    req = urllib.request.Request(url)
    req.add_header("User-agent", agent)
    # 代{过}{滤}理ip
    # ipports = ["183.146.213.157:80", "14.155.112.17:9000", "60.211.218.78:53281"]
    # ipport = random.choice(ipports)
    # print("使用的代{过}{滤}理ip:", ipport)
    # proxy_support = urllib.request.ProxyHandler({"http": ipport})
    # opener = urllib.request.build_opener(proxy_support)
    # urllib.request.install_opener(opener)
    try:
        response = urllib.request.urlopen(req)
        html = response.read()
        response.close()
        return html
    except:
        print("出错")
        return open_url(url)


def del_dir(ddir):
    os.chdir(ddir)
    lists = os.listdir()
    for i in lists:
        if os.path.isfile(i):
            os.remove(i)
        else:
            del_dir(i)
    os.chdir("../")
    os.removedirs(ddir)


def xxoo(page_num=1):
    if os.path.isdir("xxoo"):
        del_dir("xxoo")
    os.mkdir("xxoo")
    os.chdir("xxoo")
    page_url = "http://jandan.net/ooxx"
    img_dir = 1
    while page_num:
        html = open_url(page_url).decode("utf-8")
        print("打开网页。。。")

        imgs_url = get_img(html)
        print("所有图片地址获取成功!", imgs_url)

        print("保存当前页的图片。。。。")
        save_img(imgs_url, str(img_dir))
        print("保存完毕!。。。")

        page_num -= 1

        if page_num:
            print("获取下一页的链接")
            page_url = get_page(html)
            print("下一页的地址:", page_url)
            img_dir += 1


if __name__ == "__main__":
    page_num = input("请输入要爬取的页数(默认1页!):")
    if page_num == "" or page_num.isspace():
        page_num = 1
    else:
        page_num = int(page_num)
    xxoo(page_num)


二、效果

Snipaste_2020-01-10_00-21-19.png

咳咳,,只是学习,爬什么不重要

Snipaste_2020-01-10_00-28-36_lim[lossy-high].png



这些百度的免费代{过}{滤}理ip非常容易出错,
不知道各位坛友们有没有好的免费优质代{过}{滤}理IP呀{:301_997:}

免费评分

参与人数 19吾爱币 +18 热心值 +17 收起 理由
youyadream + 1 + 1 谢谢@Thanks!
wfl6 + 1 + 1 热心回复!
ltf971101 + 1 + 1 热心回复!
xiaopy2020 + 1 + 1 我很赞同!
川氏名言之 + 1 + 1 最近开始学习python,看到大神的操作,更加神往
逍遥五天 + 1 + 1 热心回复!
黄焖柠檬 + 1 学习一下你的代码,谢谢楼主分享
CheckM41a + 1 双手打字以示清白
运维穷屌丝 + 1 + 1 用心讨论,共获提升!
侧脸回眸 + 1 + 1 我很赞同!
wzzg + 1 + 1 谢谢@Thanks!
骚气的御风 + 1 + 1 我很赞同!
wating + 1 + 1 用心讨论,共获提升!
theday123 + 1 进来都是绅士大哥
dongmie + 1 + 1 用心讨论,共获提升!
xjd941314 + 1 + 1 鼓励转贴优秀软件安全工具和文档!
2019想想 + 1 + 1 用心讨论,共获提升!
Boyssan + 1 + 1 谢谢@Thanks!
maple185 + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

kuoniya 发表于 2020-1-10 00:49
kekekeke

免费评分

参与人数 1吾爱币 -6 收起 理由
wushaominkk -6 请勿灌水,提高回帖质量是每位会员应尽的义务!

查看全部评分

maple185 发表于 2020-1-10 01:24
感谢分享

我当时双手级离开了键盘


免费评分

参与人数 1吾爱币 +1 收起 理由
吟一曲苍穹 + 1 嘿嘿,学爬虫的目的暴露了

查看全部评分

hbwwt 发表于 2020-1-10 00:44
沉默挺好的 发表于 2020-1-10 00:56
感谢分享
一念天堂地狱 发表于 2020-1-10 01:08
鼓掌一下好吧
bbxfxd 发表于 2020-1-10 01:41
现在开始学习,多久可以达到你这样的水平?
 楼主| 吟一曲苍穹 发表于 2020-1-10 01:46
bbxfxd 发表于 2020-1-10 01:41
现在开始学习,多久可以达到你这样的水平?

我是菜鸟,,你现在开始学的话十来天就行了,python挺简单的
diaoff 发表于 2020-1-10 02:14
最佳蛋友 ,来个C
成国大吉大利 发表于 2020-1-10 04:41
这个软件有点意思啊
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 14:34

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表