吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2081|回复: 5
收起左侧

[Python 转载] 分享一个python爬车标的爬虫

[复制链接]
ttyp 发表于 2020-3-17 13:56


[Python] 纯文本查看 复制代码
import requests
from lxml import etree

import os
 
def makedirs(dir_name):  # 创建目录
    if os.path.isdir(dir_name) == False:
        os.makedirs(dir_name)
 
makedirs('./che/')

headers={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
}

def get_attr(el,path,attr):
    
    els = el.xpath(path)
    
    if len(els)>0 :
        return els[0].get(attr)
    else:
        return ''

def get_text(el,path):

    els = el.xpath(path + '//text()')

    if len(els)>0 :
        return els[0]
    else:
        return ''
    
 
for i in range(0,26):
    
    url = "http://www.chebiao.cc/chebiaodaquan/" + chr(i+97)    #用数字拼接网址
    print(url)
    req = requests.get(url,headers=headers)
    req.encoding = 'utf8'
    
    #print(req.apparent_encoding)
    
    html = req.text     #用requests.get()函数获得拼接网址的数据
        
    #print(html)        #打印显示一下
    root = etree.HTML(html)    #转换为xpath可用的格式
    
    images = root.xpath('//div[@class="mainbox"]/a')

    print('共' + str(len(images)) + '个')

    
    for img in images:    
        try:

            imgurl = get_attr(img,'./img','src')
            title = get_text(img,'./p[position()=1]')
            subtitle = get_text(img,'./p[position()=2]')
                        
            #print(imgurl,title,subtitle)
            
            file_name = './che/' + chr(i+65) + '_' + title + '_' + subtitle + '.' + imgurl.split('.')[-1]    #表情包名字就取网址中的最后一个
            print(file_name)
            
            res = requests.get(imgurl).content    #获得二进制数据

            with open (file_name, 'wb') as f:    #用“wb”模式打开,没有就新建,肯定是需要自动新建的
                f.write(res)    #将获得的二进制数据写到文件中
        except Exception as e:
            print(e)            
        
print("车标抓取完成!")

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

zzl525 发表于 2020-3-17 17:24
谢谢分享 !!!!
vagrantear 发表于 2020-3-17 18:28
liiv700718 发表于 2020-3-17 21:12
aristan 发表于 2020-3-17 21:14
谢谢大佬,代码保存了,虚心学些中
kevinclinton 发表于 2020-3-17 22:22
如果不是为了放到数据库的话,可以直接保存图片,这样更直观点
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-17 02:30

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表