python爬虫问题
本帖最后由 JIMaz 于 2020-5-10 20:52 编辑打算用python的scrapy框架爬取一下黄金价格,但是可能是编码不同的原因,一直以下错误
在网上找了很久,都得不到解决,所以在此来向论坛大佬求助,还希望大佬们能不吝赐教,谢谢
代码如图
# -*- coding: utf-8 -*-
import scrapy
class GoSpider(scrapy.Spider):
name = 'go'
allowed_domains = ['mybank.icbc.com.cn']
start_urls = ['https://mybank.icbc.com.cn/icbc/newperbank/perbank3/frame/frame_index.jsp?serviceId=PBL200603']
def parse(self, response):
li_list = response.xpath("//div[@class='indexBlock']/table/tr")
print(li_list)
for li in li_list:
item = {}
item["price"] = li.xpath(".//td/text()").extract_first()
print(item) 代码呢? 还是贴代码出来吧,大佬 们会出手 kai-memory 发表于 2020-5-10 19:48
代码呢?
代码贴出来了,麻烦帮忙看看,谢谢 ymhld 发表于 2020-5-10 19:49
还是贴代码出来吧,大佬 们会出手
代码贴出来了,帮忙看看,谢谢 看log是貌似是读取robots.txt出错,试试
scrapy默认的是遵循robots.txt 协议,setting 文件里修改True 为False
# Obey robots. txt rules
ROBOTSTXT_ _OBEY = False JIMaz 发表于 2020-5-10 19:58
代码贴出来了,帮忙看看,谢谢
用帖子里的高级模式
报错已经告诉你编码错误了,自己转换一下编码,问题就解决了
ymhld 发表于 2020-5-10 20:29
用帖子里的高级模式
按照高级方式贴出来了:lol utf8用不了的时候我就换成gbk{:301_997:}解决一半问题
页:
[1]
2