吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2727|回复: 12
收起左侧

[Python 转载] 30行代码实现多线程极速抓取仟渔网全部店铺信息

[复制链接]
1942 发表于 2021-8-16 19:23
学python一个多月啦,  发现python代码真的简单,
全站数据爬取 精减一下估计用不了30行代码

1.png


[Python] 纯文本查看 复制代码
import csv
from concurrent.futures import ThreadPoolExecutor
import re
import requests
from lxml import etree
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}
f = open('qianyudata.csv', 'a', encoding='gbk')
wr = csv.writer(f)
def qycompany(url):
    response = requests.get(url, headers=headers).text
    tree = etree.HTML(response)
    steat = re.findall('<title>(.*?)</title>', response, re.S)[0]
    if steat != "404" :
        cp_introduce = tree.xpath('//*[@class="shop-comp-ins"]//text()')[0]
        cp_introduce = str(cp_introduce)
        ex1 = '<td class="table-tdcon" width="35%">(.*?)</td>'
        ex2 = '<td class="table-tdcon" width="35%" colspan="3">(.*?)</td>'
        td_s1 = re.findall(ex1, response, re.S)
        td_s2 = re.findall(ex2, response, re.S)
        td_s3 = td_s1 + td_s2
        td_s = ['null' if x == '' else x for x in td_s3]    #写入数据库时空值替换为null
        td_s.append(cp_introduce)
        td_s.append(url)
        wr.writerow(td_s)
        print('采集成功' + url)
    else:
        print('无此店铺' + url)
if __name__ == '__main__':
    with ThreadPoolExecutor(200) as t:      #多线程 看设备性能更改参数,这个网站暂时没有反扒限制
        for i in range(1280, 60000):        #店铺链接id从1280开始,中间有空,
            t.submit(qycompany, f'https://{i}.qianyuwang.com/company.html')
f.close()
print('采集完成')

免费评分

参与人数 6吾爱币 +10 热心值 +5 收起 理由
szsnk144864 + 1 + 1 正在学习爬取小说,感谢大佬的代码
Tortrix + 1 + 1 热心回复!
苏紫方璇 + 5 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
sgyz520 + 1 + 1 热心回复!
yxh5120 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
hshcompass + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 1942 发表于 2021-8-17 14:14
弃城 发表于 2021-8-17 11:11
是在线上学习的吗?能推荐下吗?我也想学

b站很多视频,0基础的都可以 python 只是爬虫的话还是比较简单的
弃城 发表于 2021-8-18 08:25
1942 发表于 2021-8-17 14:14
b站很多视频,0基础的都可以 python 只是爬虫的话还是比较简单的

好的,谢谢指导,我去看看。
hshcompass 发表于 2021-8-16 19:34
ciker_li 发表于 2021-8-16 19:50
感谢分享
李玉风我爱你 发表于 2021-8-16 20:26
可以试试with open
sgyz520 发表于 2021-8-16 23:50
膜拜啊!
弃城 发表于 2021-8-17 11:11
是在线上学习的吗?能推荐下吗?我也想学
Tortrix 发表于 2021-8-17 16:48
学无止境,新手的我,需要多看多练
爱飞的兔子 发表于 2021-8-18 11:24
爬虫什么的入门有多久入狱就有多久,且爬且珍惜!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 07:55

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表