xhtdtk 发表于 2021-1-12 22:05

当我的第一个爬虫尝试爬取题库答案,我有一个想法

本帖最后由 xhtdtk 于 2021-1-12 22:08 编辑

有一天晚上不知道该干什么,于是又看视频学习去了,主要是了解python的api接口测试。
基于学习完就实践的学习方式,第二天就尝试写一个题库网站的爬虫,但效果不好。
然后翻了很多帖子,又回顾了视频,突然间脑袋通了,第三天写代码顺手很多,也顺便把BeautifulSoup也学了。
开始分享学习吧。


1、登录

爬取的题库网站是https://www.ddtk.vip→按F12进入开发者模式→选Network→选Headers→点击登录→输入错误的账号密码→选择login→获取了几个关键信息
1、Requesturl→https://www.ddtk.vip/ddtk/web/login
2、data→{username: "123", password: "123"}

row1至row3:需要用到的第三方库
row5:创建一个会话,用以保留登录后的数据
row6:基础网址
row8至row11:账号密码
row12:传递账号密码信息,当我使用data=username_password时报错了,查看帖子才知道要将账号密码json化,于是json=username_password解决了报错
row13:打印登录信息,print(rep_login.text)得到的是文本,不好处理,于是将rep_login进行json(),得到一个字典,得到字典信息就方便多了


2、搜索题目

可以看到?后面的参数是key=123,123就是我需要查找的题目
而查找题目后我们就要点击参考答案,通过右键检查可以得到一个herf

row16:将题目信息赋值于变量timu
row17:设置参数
row18:请求刚刚设置的参数,网址是base_url+“/ddtk/web/search”
row19:将请求得到的网页信息BeautifulSoup化,得到的网页信息是字符串,将其转化为BeautifulSoup后可以使用其语法帮助我们筛选想要的数据,当时学的时候我是这样理解的,有人用微信发了我100个人的名字,我很难找到有没有我,于是我将名字放在word文档上,我就可以使用word的查找功能一下子查看有没有我的名字
row21:因查找题目后会有多个结果,于是弄了一个遍历,len统计得到的所有结果
row22:通过BeautifulSoup查找所有的参考答案的href


3、点击参考答案进入查看答案页面

得到查看答案页面的网址是base_url+参考答案的href(linktimu=ddtk/web/detail/0/363259)

row26:发送get请求得到查看答案页面的网页信息
row27:将得到的信息BeautifulSoup化
row29至row32:得到题目信息,使用re模块的正则表达式功能去除题目信息的所有空格和换行符
row34至row38:得到选项信息,使用正则表达式得到选项的信息,并将每个选项变成列表的一个元素,移除所有""值


4、查看答案

点击查看,得到一个新的网页信息https://www.ddtk.vip/ddtk/web/viewAnswer/363259?null,显示了答案为B

row41至row44:get请求得到答案后,将网页信息json()化,通过字典获得答案B


4、处理得到我想要的真正答案,而不是一个B这样的选项答案

因为我将选项用一个列表集合在一起,如果是个空集,说明我查看答案后,获得的不是一个选项,而是真切的答案

否则,则用以下这个判定方法得到我的答案

如果是A选项,那列表的第一个元素就是我的答案



END——————


大家看到我最后把答案赋值给pipei_answer,因为通过这种方式,我就可以不用像之前发的贴子一样,需要自己创建题库的方式来匹配答案

wsadqe110 发表于 2021-1-13 19:07

xhtdtk 发表于 2021-1-13 20:30

wsadqe110 发表于 2021-1-13 19:07
我用火车头测试了一下爬取答案每个IP好像是2次还是3次就需要购买会员,但是我看了一下 会员获取答案次数 ...

👍🏻👍🏻👍🏻厉害了兄弟,不过这个小爬虫的主要用途是来帮忙完成考试的

xenonums 发表于 2021-1-12 22:11

教程详细,最近也在学爬虫,学习了:$qqq感谢楼主分享

xhtdtk 发表于 2021-1-12 22:32

那个想法是,考试的时候我弄了个自动截图的,现在有匹配的答案就可以自动选择了

Jesp 发表于 2021-1-12 23:25

有木有爆破网站登录的{:1_904:}没有验证码的那种

涂秋 发表于 2021-1-13 00:31

嘻嘻,直接复现

o824 发表于 2021-1-13 00:55

谢谢分享 学习下

白天起不来 发表于 2021-1-13 01:43

很好很详细。感谢楼主分享

hxh-linux 发表于 2021-1-13 03:32

Jesp 发表于 2021-1-12 23:25
有木有爆破网站登录的没有验证码的那种

scrapy-redis使用多台服务器 然后利用中间件设置IP防封spider生成随机用户名密码疯狂注册
有验证码就是用打码平台,配合selenium进行识别
一般小型网站一个上午就可以被搞崩

byhsmile2017 发表于 2021-1-13 07:47

byhsmile2017 发表于 2021-1-13 07:53

页: [1] 2 3 4
查看完整版本: 当我的第一个爬虫尝试爬取题库答案,我有一个想法