吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6501|回复: 26
收起左侧

[Python 转载] 基于selenium的中国知网爬虫(实测可用)

  [复制链接]
灵海之森 发表于 2022-1-2 19:06
本帖最后由 灵海之森 于 2022-1-2 19:07 编辑

虽然是2020年写的,但最近改了改还能用。
项目地址:

> https://github.com/stay-leave/CNKI-selenium-crawler

配置:

本项目使用selenium模块,浏览器使用的是火狐。

1.下载geckodriver,地址https://github.com/mozilla/geckodriver/releases

2.将适配的安装包放置在火狐浏览器的安装路径、Python的Stricpts文件夹

3.将火狐的安装路径添加到电脑环境变量的用户变量的path中。


功能:

1.社科基金项目数据爬取




2.论文的元数据爬取



由于我在学习中是将关键词按年份聚类的,所以没有对单个论文的关键词作分隔。都是一个基金的所有产出论文的,可以在源码中修改。





3.论文的参考和引证的期刊文献爬取

参考文献





引证文献



注意事项:

1.任意网络均适用,不需要购买知网。

2.可以按原始代码从社科基金项目开始直到产出论文的参考、引证文献的爬取。

3.爬取速度可以调节,修改程序里的t.sleep()中的数值即可,建议1到6之间,可以采用random随机。

4.论文元数据爬取需要严格按照三个程序的顺序,即题名等、被引数等、论文地址。

5.所有结果均以excel方式保存,注意看文件路径。本项目中基金号为主键。

6.仅作学习使用。

免费评分

参与人数 8吾爱币 +7 热心值 +6 收起 理由
xianyuamiao123 + 1 我很赞同!
kaixianxian + 1 + 1 我很赞同!
Tonyha7 + 1 谢谢@Thanks!
梦入神机 + 2 + 1 我很赞同!
lcwww + 1 + 1 我很赞同!
chinawolf2000 + 1 + 1 热心回复!
yunji + 1 鼓励转贴优秀软件安全工具和文档!
wanghaofeng8023 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 灵海之森 发表于 2022-1-3 10:25
sam喵喵 发表于 2022-1-3 09:47
一般学校都会购买知网,校内IP登陆就可以下载

论文原文的话也可以支付宝办个浙江图书馆的读者证,白嫖。
 楼主| 灵海之森 发表于 2022-1-2 20:47
Airey 发表于 2022-1-2 20:45
不用money下载吗?这么舒服的吗?刚好快要毕业写论文了,感谢

只是元数据,建议调下等待时间。
wanghaofeng8023 发表于 2022-1-2 19:27
知网还真没爬过,原来以为是政府控制的,最近出了事才知道是私营的,这就冲一波
liuwei_bnu 发表于 2022-1-2 19:30
厉害了 我的乖乖
 楼主| 灵海之森 发表于 2022-1-2 19:39
卑微考研狗求各位大佬的star,复试不易
njbb888 发表于 2022-1-2 20:23
能爬论文全文?
Airey 发表于 2022-1-2 20:45
不用money下载吗?这么舒服的吗?刚好快要毕业写论文了,感谢
 楼主| 灵海之森 发表于 2022-1-2 20:46
njbb888 发表于 2022-1-2 20:23
能爬论文全文?

不能,这个知网藏的死死的,太麻烦了
photocs 发表于 2022-1-2 20:50
Airey 发表于 2022-1-2 20:45
不用money下载吗?这么舒服的吗?刚好快要毕业写论文了,感谢

你不怕查重吗?
gunxsword 发表于 2022-1-2 21:42
感谢分享,学习一下代码!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 23:54

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表