30行代码实现多线程极速抓取仟渔网全部店铺信息

1942 · 发表于 2021-8-16 19:23

学python一个多月啦，发现python代码真的简单，
全站数据爬取精减一下估计用不了30行代码

[Python] 纯文本查看 复制代码

import csv
from concurrent.futures import ThreadPoolExecutor
import re
import requests
from lxml import etree
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}
f = open('qianyudata.csv', 'a', encoding='gbk')
wr = csv.writer(f)
def qycompany(url):
    response = requests.get(url, headers=headers).text
    tree = etree.HTML(response)
    steat = re.findall('<title>(.*?)</title>', response, re.S)[0]
    if steat != "404" :
        cp_introduce = tree.xpath('//*[@class="shop-comp-ins"]//text()')[0]
        cp_introduce = str(cp_introduce)
        ex1 = '<td class="table-tdcon" width="35%">(.*?)</td>'
        ex2 = '<td class="table-tdcon" width="35%" colspan="3">(.*?)</td>'
        td_s1 = re.findall(ex1, response, re.S)
        td_s2 = re.findall(ex2, response, re.S)
        td_s3 = td_s1 + td_s2
        td_s = ['null' if x == '' else x for x in td_s3]    #写入数据库时空值替换为null
        td_s.append(cp_introduce)
        td_s.append(url)
        wr.writerow(td_s)
        print('采集成功' + url)
    else:
        print('无此店铺' + url)
if __name__ == '__main__':
    with ThreadPoolExecutor(200) as t:      #多线程 看设备性能更改参数，这个网站暂时没有反扒限制
        for i in range(1280, 60000):        #店铺链接id从1280开始，中间有空，
            t.submit(qycompany, f'https://{i}.qianyuwang.com/company.html')
f.close()
print('采集完成')

1942 · 发表于 2021-8-17 14:14

弃城发表于 2021-8-17 11:11
是在线上学习的吗？能推荐下吗？我也想学

b站很多视频，0基础的都可以 python 只是爬虫的话还是比较简单的

弃城 · 发表于 2021-8-18 08:25

1942 发表于 2021-8-17 14:14
b站很多视频，0基础的都可以 python 只是爬虫的话还是比较简单的

好的，谢谢指导，我去看看。

hshcompass · 发表于 2021-8-16 19:34

收藏学习

ciker_li · 发表于 2021-8-16 19:50

感谢分享

李玉风我爱你 · 发表于 2021-8-16 20:26

可以试试with open

sgyz520 · 发表于 2021-8-16 23:50

膜拜啊！

弃城 · 发表于 2021-8-17 11:11

是在线上学习的吗？能推荐下吗？我也想学

Tortrix · 发表于 2021-8-17 16:48

学无止境，新手的我，需要多看多练

爱飞的兔子 · 发表于 2021-8-18 11:24

爬虫什么的入门有多久入狱就有多久，且爬且珍惜！

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 30行代码实现多线程极速抓取仟渔网全部店铺信息

免费评分