吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6208|回复: 21
收起左侧

[Python 转载] 自己写的丨爬取某网站品牌保存到本地为sql文件的爬虫,可导入destoon7数据库中

  [复制链接]
hter 发表于 2019-9-11 09:29



有图有真像
2019-09-11_092722.png

自己写的,爬取某网站品牌保存到本地为sql文件的爬虫


0、有防爬虫机制,保证爬取顺利
1、可以爬取多个分页,页数可以自己改
2、自动将对方网站上的分类改成自己的分类
3、自动下载品牌图片,并保存到指定的目录
4、自动保存的sql文件可以直接导入到destoon 7程序中
5、可以设置爬取多个字段,多少可以自己修改,但需要注意修改sql语句
6、自动判断链接是否存在,如果状态码是200才进行抓取
7、使用urllib, requests, re, threading, time, random 库
8、使用了多线程,但也只有单线程
9、本来想做界面的,但...懒了
10、有防错机制,当出现错误时,程序不会停止爬取,可以简单提示错误并自动跳过


上代码,各位看观有什么意见,跟帖喽


wood365_brand.rar (2.12 KB, 下载次数: 103)

免费评分

参与人数 3吾爱币 +3 热心值 +2 收起 理由
qianjin8595 + 1 + 1 谢谢@Thanks!
hzhaiyu + 1 + 1 谢谢@Thanks!
Y-one + 1 鼓励转贴优秀软件安全工具和文档!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

PearlyNautilus 发表于 2019-9-11 10:16
最简单的一个爬虫,分享精神可嘉,但应该看到高并发情况下楼主的爬虫容易造成网站堵塞,给网站维护者可能造成不必要的麻烦,agent建议添加“Connection:close”字段。
网络部 发表于 2021-4-27 11:44
dt模板   29   22   20   12    06   这几套模板发下  感谢 好人一生平安  http://dt29.mb69.cn/
 楼主| hter 发表于 2019-9-11 09:30
我傻瓜1991 发表于 2019-9-11 09:36
谢谢,学习一下
Y-one 发表于 2019-9-11 10:06
就是你们,天天爬的我服务器都快炸了,本来配置都不咋地,
共你山今 发表于 2019-9-11 10:30
可惜没搞过py
xw0224 发表于 2019-9-11 10:45
Y-one 发表于 2019-9-11 10:06
就是你们,天天爬的我服务器都快炸了,本来配置都不咋地,

不厚道的笑了
TwilightZ 发表于 2019-9-11 11:05
做的不错哦,楼主加油,期待更好的作品!
半步散人 发表于 2019-9-11 11:23
Y-one 发表于 2019-9-11 10:06
就是你们,天天爬的我服务器都快炸了,本来配置都不咋地,

不厚道的笑了
Y-one 发表于 2019-9-11 14:30

我太难了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-22 14:03

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表