JIMaz 发表于 2020-5-10 19:41

python爬虫问题

本帖最后由 JIMaz 于 2020-5-10 20:52 编辑

打算用python的scrapy框架爬取一下黄金价格,但是可能是编码不同的原因,一直以下错误

在网上找了很久,都得不到解决,所以在此来向论坛大佬求助,还希望大佬们能不吝赐教,谢谢
代码如图

# -*- coding: utf-8 -*-
import scrapy

class GoSpider(scrapy.Spider):
    name = 'go'
    allowed_domains = ['mybank.icbc.com.cn']
    start_urls = ['https://mybank.icbc.com.cn/icbc/newperbank/perbank3/frame/frame_index.jsp?serviceId=PBL200603']

    def parse(self, response):
      li_list = response.xpath("//div[@class='indexBlock']/table/tr")
      print(li_list)
      for li in li_list:
            item = {}
            item["price"] = li.xpath(".//td/text()").extract_first()
            print(item)

vista_info 发表于 2020-5-10 19:48

代码呢?

ymhld 发表于 2020-5-10 19:49

还是贴代码出来吧,大佬 们会出手

JIMaz 发表于 2020-5-10 19:57

kai-memory 发表于 2020-5-10 19:48
代码呢?

代码贴出来了,麻烦帮忙看看,谢谢

JIMaz 发表于 2020-5-10 19:58

ymhld 发表于 2020-5-10 19:49
还是贴代码出来吧,大佬 们会出手

代码贴出来了,帮忙看看,谢谢

qifeon 发表于 2020-5-10 20:03

看log是貌似是读取robots.txt出错,试试
scrapy默认的是遵循robots.txt 协议,setting 文件里修改True 为False
# Obey robots. txt rules
ROBOTSTXT_ _OBEY = False

ymhld 发表于 2020-5-10 20:29

JIMaz 发表于 2020-5-10 19:58
代码贴出来了,帮忙看看,谢谢

用帖子里的高级模式

ReLoading 发表于 2020-5-10 20:52

报错已经告诉你编码错误了,自己转换一下编码,问题就解决了

JIMaz 发表于 2020-5-10 20:53

ymhld 发表于 2020-5-10 20:29
用帖子里的高级模式

按照高级方式贴出来了:lol

挑灯看花 发表于 2020-5-10 20:53

utf8用不了的时候我就换成gbk{:301_997:}解决一半问题
页: [1] 2
查看完整版本: python爬虫问题