吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 11843|回复: 26
收起左侧

[Python 转载] kindle电子书籍全站爬取

  [复制链接]
frankyxu 发表于 2019-1-30 17:01
本帖最后由 frankyxu 于 2019-1-31 11:18 编辑

对于喜欢用kindle看电子书的朋友可以拿去使用,书籍比较多而且全,因为下载的文件比较多,就不上传了,而且网络需要能够访问google,否则打不开网页,爬虫采用scrapy框架进行全站爬取,书籍按照作者书籍名分类,书有mobi和equb,pdf三种格式,采用分布式进行全站爬取,网站链接

github源码地址 https://github.com/guapier/zi5book

最新安装操作

没有python3环境

下载anaconda3 https://www.anaconda.com/download/#linux

https://repo.anaconda.com/archive/

wget https://repo.anaconda.com/archive/Anaconda3-5.0.1-Linux-x86_64.sh

chmod +x Anaconda3-5.0.1-Linux-x86_64.sh

./Anaconda3-5.0.1-Linux-x86_64.sh

一路yes即可,除了最后的安装vscode

安装依赖包

conda install scrapy(也可以pip install scrapy,有时候容易安装错误)

pip install scrapy_redis

pip install pymongo

安装redis和mongodb

sudo apt-get install redis-server

sudo apt-get install mongodb

运行

git clone https://github.com/guapier/zi5book.git

cd zi5book

python3 main.py即可

可能出现的错误的解决方案

```ba's
UnicodeEncodeError: 'ascii' codec can't encode characters in position 25-31: ordinal not in range(128)

首先要从Ubuntu语言设置那里,把中文语言包安装上
sudo apt-get install language-pack-zh-hans

打开/etc/environment
在下面添加如下两行
LANG=zh_CN.UTF-8
LANGUAGE=zh_CN:zh:en_US:en

打开 /var/lib/locales/supported.d/local
添加zh_CN.GB2312字符集,如下:
en_US.UTF-8 UTF-8
zh_CN.UTF-8 UTF-8
zh_CN.GBK GBK
zh_CN GB2312
保存后,执行命令:
sudo locale-gen

打开/etc/default/locale
修改为:
LANG=”zh_CN.UTF-8″
LANGUAGE=”zh_CN:zh:en_US:en”

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
Pear + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

shu3590952 发表于 2019-1-30 17:04
谢谢楼主啦
 楼主| frankyxu 发表于 2019-1-30 17:08
AnkhSpirit 发表于 2019-1-30 17:17
Pear 发表于 2019-1-30 17:20
书籍太多了,眼睛看不过来
汉中秋月 发表于 2019-1-30 17:28
感谢楼主分享,支持一下!
紫色木槿 发表于 2019-1-30 17:32
书籍太多了,真棒
lpdswing 发表于 2019-1-30 17:34
看了下没有啥有用的书
带血的大黄瓜 发表于 2019-1-30 18:03
感谢楼主
jason_tingna 发表于 2019-1-30 18:12
怎么使用的啊。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-29 17:31

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表