python爬虫问题

JIMaz · 发表于 2020-5-10 19:41

本帖最后由 JIMaz 于 2020-5-10 20:52 编辑

打算用python的scrapy框架爬取一下黄金价格，但是可能是编码不同的原因，一直以下错误

在网上找了很久，都得不到解决，所以在此来向论坛大佬求助，还希望大佬们能不吝赐教，谢谢
代码如图

# -*- coding: utf-8 -*-
import scrapy

class GoSpider(scrapy.Spider):
name = 'go'
allowed_domains = ['mybank.icbc.com.cn']
start_urls = ['https://mybank.icbc.com.cn/icbc/newperbank/perbank3/frame/frame_index.jsp?serviceId=PBL200603']

def parse(self, response):
      li_list = response.xpath("//div[@class='indexBlock']/table/tr")
      print(li_list)
      for li in li_list:
         item = {}
         item["price"] = li.xpath(".//td/text()").extract_first()
         print(item)

vista_info · 发表于 2020-5-10 19:48

代码呢？

ymhld · 发表于 2020-5-10 19:49

还是贴代码出来吧，大佬们会出手

JIMaz · 发表于 2020-5-10 19:57

kai-memory 发表于 2020-5-10 19:48
代码呢？

代码贴出来了，麻烦帮忙看看，谢谢

JIMaz · 发表于 2020-5-10 19:58

ymhld 发表于 2020-5-10 19:49
还是贴代码出来吧，大佬们会出手

代码贴出来了，帮忙看看，谢谢

qifeon · 发表于 2020-5-10 20:03

看log是貌似是读取robots.txt出错，试试
scrapy 默认的是遵循 robots.txt 协议，setting 文件里修改True 为False
# Obey robots. txt rules
ROBOTSTXT_ _OBEY = False

ymhld · 发表于 2020-5-10 20:29

JIMaz 发表于 2020-5-10 19:58
代码贴出来了，帮忙看看，谢谢

用帖子里的高级模式

ReLoading · 发表于 2020-5-10 20:52

报错已经告诉你编码错误了，自己转换一下编码，问题就解决了

JIMaz · 发表于 2020-5-10 20:53

ymhld 发表于 2020-5-10 20:29
用帖子里的高级模式

按照高级方式贴出来了

挑灯看花 · 发表于 2020-5-10 20:53

utf8用不了的时候我就换成gbk

解决一半问题

帐号		自动登录	找回密码
密码			注册[Register]

[求助] python爬虫问题