吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6552|回复: 26
收起左侧

[Python 转载] 【2020年春季人教版教科书】爬RM教育出版社提供的电子教材

[复制链接]
twostudy 发表于 2020-2-13 18:06
本帖最后由 twostudy 于 2020-2-13 18:48 编辑

1.问题说明

人民教育出版社为落实疫情防控期间中小学校“停课不停教、不停学”要求,在网上公布了下学期的电子版教材。网址(http://bp.pep.com.cn/jc/
前段时间我也一直在找相关教材的PDF,奈何质量好的比较少。这是权威发布的版本,质量应该是最好的了,而且涵盖范围广,涵盖小学、初中、高中到中职
下一本当然不过瘾所以当然要多爬几本了,何况还有教师用书。

QQ浏览器截图20200213182415.png
1.png
2.png
3.png
4.png

请大家轻点爬,就算都爬下来了,等用的时候应该都改版了。

2.Python程序

这里就放一个函数接口,如《小学道德与法治教科书》地址为(http://bp.pep.com.cn/jc/ywjygjkcjc/xdjc/
只需要(/ywjygjkcjc/xdjc/)就行了
import requests
from tqdm import tqdm
from bs4 import BeautifulSoup
import os

def bookDown(url):
        #  获取当前工作目录
    saveDirectory = os.getcwd()

        #  页面获取与解析
    rootURL ='http://bp.pep.com.cn/jc'+url
    bookHtml = requests.get(rootURL)
    bookHtml.encoding = 'UTF-8'
    htmlsoup = BeautifulSoup(bookHtml.text,'lxml')

        #  创建存放文件夹
    directoryName = htmlsoup.find('h4')
    saveDirectory = saveDirectory+'\\'+str(directoryName.string)
    if not os.path.exists(saveDirectory):
        os.makedirs(saveDirectory)

        #  PDF的文件名和绝对地址
    bookName = htmlsoup.find_all('h6')
    bookSubUrl = htmlsoup.find_all('a', attrs={'class':'btn_type_dl'}, href = True)

        #  下载页面所有PDF教材
    bookNum = len(bookName)
    for index in range(bookNum):
        pdfName = saveDirectory+'\\'+bookName[index].string+'.pdf'
        pdfDownloadUrl = rootURL+bookSubUrl[index]['href'][2:]
        getPdf = requests.get(pdfDownloadUrl)
        content_size = int(int(getPdf.headers['Content-Length'])/1024)
        print(pdfName)
        pdfFile = open(pdfName,'wb')
        for data in tqdm(iterable=getPdf.iter_content(1024),total=content_size,unit='k',desc=pdfName):
            pdfFile.write(data)
        pdfFile.close()

3.感谢

1.第一次发帖,请大家多批评
@天空宫阙--ai酸的博文-等大佬和同好,从他们的代码学习了很多。">2. 感谢 @天空宫阙  ai酸的博文 等大佬和同好,从他们的代码学习了很多。

一年级春季

一年级春季

免费评分

参与人数 2吾爱币 +2 热心值 +2 收起 理由
天空宫阙 + 1 + 1 用心讨论,共获提升!
微若清风 + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

dazhuangzhuang 发表于 2020-2-13 19:00
网站本身提供了PDF下载的
cdwdz 发表于 2020-2-13 20:58

是的  很方便  点击下载   idm就出来上班了    pdf文档就获得了    想下载那个就下载那个
chen1974 发表于 2020-2-13 18:40
楼主也是实在没有东西可以发了啊。。这些都是小学APP上发的
忘情的城市 发表于 2020-2-13 19:04
怎么我下的都是WORD文档,不一样啊
hacklr 发表于 2020-2-13 19:07
dazhuangzhuang 发表于 2020-2-13 19:00
网站本身提供了PDF下载的

没看到有pdf提供。
忘情的城市 发表于 2020-2-13 19:07
哦,更新了,我前几天下的不是这样,都是散装WORD
xixiodk 发表于 2020-2-13 19:23
厉害了感谢分享
忘了忘不了 发表于 2020-2-13 19:27
刚好用得上,感谢分享
angsanghu 发表于 2020-2-13 20:17
迅雷下载也是可以的。还有你全部爬好,百度分享就好啊。
dazhuangzhuang 发表于 2020-2-13 20:27
hacklr 发表于 2020-2-13 19:07
没看到有pdf提供。

2020-02-13_202613.png
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 09:57

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表