基于selenium的中国知网爬虫（实测可用）

灵海之森 发表于 2022-1-2 19:06

本帖最后由灵海之森于 2022-1-2 19:07 编辑

虽然是2020年写的，但最近改了改还能用。
项目地址：

> https://github.com/stay-leave/CNKI-selenium-crawler

配置：

本项目使用selenium模块，浏览器使用的是火狐。

1.下载geckodriver，地址https://github.com/mozilla/geckodriver/releases

2.将适配的安装包放置在火狐浏览器的安装路径、Python的Stricpts文件夹

3.将火狐的安装路径添加到电脑环境变量的用户变量的path中。

功能：

1.社科基金项目数据爬取

https://img-blog.csdnimg.cn/82fe9ee71bd14072b572003db0b4765d.png

2.论文的元数据爬取

https://img-blog.csdnimg.cn/1facfb451f7748ed9c323ddbe1635374.png

由于我在学习中是将关键词按年份聚类的，所以没有对单个论文的关键词作分隔。都是一个基金的所有产出论文的，可以在源码中修改。

https://img-blog.csdnimg.cn/bd76ec86e8164f0385ce65624525440b.png

3.论文的参考和引证的期刊文献爬取

参考文献

https://img-blog.csdnimg.cn/cb71e5b9e5bf4321940f2d3806cdfc83.png

引证文献

https://img-blog.csdnimg.cn/2d47841bad3d4f5aa30ec1b0ea334dcd.png

注意事项：

1.任意网络均适用，不需要购买知网。

2.可以按原始代码从社科基金项目开始直到产出论文的参考、引证文献的爬取。

3.爬取速度可以调节，修改程序里的t.sleep()中的数值即可，建议1到6之间，可以采用random随机。

4.论文元数据爬取需要严格按照三个程序的顺序，即题名等、被引数等、论文地址。

5.所有结果均以excel方式保存，注意看文件路径。本项目中基金号为主键。

6.仅作学习使用。

灵海之森 发表于 2022-1-3 10:25

sam喵喵发表于 2022-1-3 09:47
一般学校都会购买知网，校内IP登陆就可以下载

论文原文的话也可以支付宝办个浙江图书馆的读者证，白嫖。

灵海之森 发表于 2022-1-2 20:47

Airey 发表于 2022-1-2 20:45
不用money下载吗？这么舒服的吗？刚好快要毕业写论文了，感谢

只是元数据，建议调下等待时间。

wanghaofeng8023 发表于 2022-1-2 19:27

知网还真没爬过，原来以为是政府控制的，最近出了事才知道是私营的，这就冲一波

liuwei_bnu 发表于 2022-1-2 19:30

厉害了我的乖乖

灵海之森 发表于 2022-1-2 19:39

卑微考研狗求各位大佬的star，复试不易{:1_923:}

njbb888 发表于 2022-1-2 20:23

能爬论文全文？

Airey 发表于 2022-1-2 20:45

不用money下载吗？这么舒服的吗？刚好快要毕业写论文了，感谢

灵海之森 发表于 2022-1-2 20:46

njbb888 发表于 2022-1-2 20:23
能爬论文全文？

不能，这个知网藏的死死的，太麻烦了

photocs 发表于 2022-1-2 20:50

Airey 发表于 2022-1-2 20:45
不用money下载吗？这么舒服的吗？刚好快要毕业写论文了，感谢

你不怕查重吗？

gunxsword 发表于 2022-1-2 21:42

感谢分享,学习一下代码!

页: [1] 2 3

吾爱破解 - 52pojie.cn's Archiver

基于selenium的中国知网爬虫（实测可用）