吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1968|回复: 4
收起左侧

[Python 转载] 【笔记】基于Python-scrapy框架爬取小刀自学资源

[复制链接]
a11040427 发表于 2020-11-5 10:36
本帖最后由 a11040427 于 2020-11-5 10:38 编辑

为了学习scrapy所以用一个简单项目练练手
scrapy的设置和启动这里就不说了,都是一样的

爬虫主文件:

import scrapy

class ZixueSpider(scrapy.Spider):
    name = 'zixue'
    allowed_domains = ['x6d.com']  # 过滤二次请求的参数
    start_urls = [f'https://www.x6d.com/html/18-{i}.html' for i in range(1,65)]

    def parse(self, response):
        # print(response.text)
        url_list = response.xpath('//html/body/div/div/div/ul/li/div/div/a/@href').extract()
        # print(url_list)

        for url in url_list:
            new_url = 'https://www.x6d.com' + url  # 上面获取的url并不完整,这里拼接完整url
            # print(new_url)

            yield scrapy.Request(
                url=new_url,
                callback=self.parse2,
                encoding='utf-8'
            )
    def parse2(self,response):
        # print(response.url)
        item = {}
        item['教程标题'] = response.xpath('//html/body/div/div/div/h1/text()').extract_first()
        info = response.xpath('//html/body/div/div/div/div[2]//p//text()').extract()
        item['教程介绍'] = info[0]
        item['网盘链接'] = info[1:]
        yield item


在Terminal下输入scrapy crawl zixue -o zixue.csv
我自己只是运行了一下
源码我放这了,有需要的可以自己玩

这是爬下来的数据
TSHBWI87UDHY)9JSS~[SXCH.png

xiaodao.rar

7.89 KB, 下载次数: 23, 下载积分: 吾爱币 -1 CB

代码

免费评分

参与人数 2吾爱币 +4 热心值 +1 收起 理由
苏紫方璇 + 3 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
李小天 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

rose521rain 发表于 2020-11-5 14:35
哈哈,不错
斌斌A 发表于 2020-11-5 16:50
wikiyc 发表于 2020-11-6 08:26
Laney 发表于 2020-11-6 08:28
不错不错,学习一下
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-29 16:39

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表