小白每日一爬 Crawlspider练习（发现正则不会写）

网站 › 『编程语言讨论求助区』 › 小白每日一爬 Crawlspider练习（发现正则不会写）

lihu5841314 发表于 2021-5-30 14:44

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ZxSpider(CrawlSpider):
name = 'zx'
allowed_domains = ['zzxrjc.com']
start_urls = ['http://zzxrjc.com/']

rules = (
   Rule(LinkExtractor(allow=r'(/txt/\d+/)'), callback='parse_item'),
   Rule(LinkExtractor(allow=r'(/sort/\d+/)'),follow=True),
)

def parse_item(self, response):
   item = {}
   item['book_img'] = response.xpath('//div[@class="novel_info_main"]/img/@src').extract_first()
   item['book_name'] = response.xpath('//div[@class="novel_info_main"]/img/@alt').extract_first()
   item['book_detail'] = response.xpath('//div[@id="info"]/div//text()').extract_first()
   print(item)
   return item

lihu5841314 发表于 2021-5-30 14:45

知轩藏书比上一贴少了好多代码 Rules 真好用

页: [1]

免责声明：
吾爱破解所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:Service@52pojie.cn

吾爱破解 - 52pojie.cn's Archiver

小白每日一爬 Crawlspider练习 （发现正则不会写）

小白每日一爬 Crawlspider练习（发现正则不会写）