吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1414|回复: 0
收起左侧

[Python 转载] 自学记录--爬取贴吧图片

  [复制链接]
BoBuo 发表于 2021-9-25 22:03
[Python] 纯文本查看 复制代码
#图片爬虫
import urllib
import urllib.request
from lxml import etree
 
class Spider(object):
    def __init__(self):
        self.tiebaName="java"
        self.beginPage=1
        self.endPage=3
        self.url="http://tieba.baidu.com/f?"
        self.ua_header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}
        self.fileName=1
 
    #构造url
    def tiebaSpider(self):
        for page in range(self.beginPage,self.endPage+1):
            pn=(page-1)*50
            wo={'pn':pn,'kw':self.tiebaName}
            word=urllib.parse.urlencode(wo)
            myurl=self.url+word
            self.loadPage(myurl)
 
    #爬取页面内容
    def loadPage(self,url):
        req=urllib.request.Request(url,headers=self.ua_header)
        data=urllib.request.urlopen(req).read()
 
        html=etree.HTML(data)
        links=html.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')
 
        for link in links:
            link="http://tieba.baidu.com"+link
            self.loadImages(link)
 
    #爬取帖子详情页,获取图片链接
    def loadImages(self,link):
        req=urllib.request.Request(link,headers=self.ua_header)
        data=urllib.request.urlopen(req).read()
        html=etree.HTML(data)
        links=html.xpath('//img[@class="BDE_Image" ]/@src')
        for imageslink in links:
            self.writeImages(imageslink)
 
    #通过图片所在链接,爬取图片并保存到本地
    def writeImages(self,imagesLink):
        print("正在存储图片:",self.fileName,"............")
        image=urlib.request.urlopen(imagesLink).read()
        
 
        file=open(r"D:\代码保存\保存图片\\"+str(self.fileName)+".jpg","wb")
 
        file.write(image)
 
        file.close()  
 
        self.fileName+=1
 
if __name__ == '__main__':
    
    mySpider=Spider()
 
    mySpider.tiebaSpider()
 

免费评分

参与人数 2吾爱币 +6 热心值 +2 收起 理由
wjw6750338 + 1 + 1 我很赞同!
苏紫方璇 + 5 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-13 17:38

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表