当我的第一个爬虫尝试爬取题库答案，我有一个想法

xhtdtk 发表于 2021-1-12 22:05

本帖最后由 xhtdtk 于 2021-1-12 22:08 编辑

有一天晚上不知道该干什么，于是又看视频学习去了，主要是了解python的api接口测试。
基于学习完就实践的学习方式，第二天就尝试写一个题库网站的爬虫，但效果不好。
然后翻了很多帖子，又回顾了视频，突然间脑袋通了，第三天写代码顺手很多，也顺便把BeautifulSoup也学了。
开始分享学习吧。

1、登录

爬取的题库网站是https://www.ddtk.vip→按F12进入开发者模式→选Network→选Headers→点击登录→输入错误的账号密码→选择login→获取了几个关键信息
1、Requesturl→https://www.ddtk.vip/ddtk/web/login
2、data→{username: "123", password: "123"}

row1至row3：需要用到的第三方库
row5：创建一个会话，用以保留登录后的数据
row6：基础网址
row8至row11：账号密码
row12：传递账号密码信息，当我使用data=username_password时报错了，查看帖子才知道要将账号密码json化，于是json=username_password解决了报错
row13：打印登录信息，print(rep_login.text)得到的是文本，不好处理，于是将rep_login进行json()，得到一个字典，得到字典信息就方便多了

2、搜索题目

可以看到?后面的参数是key=123，123就是我需要查找的题目
而查找题目后我们就要点击参考答案，通过右键检查可以得到一个herf

row16：将题目信息赋值于变量timu
row17：设置参数
row18：请求刚刚设置的参数，网址是base_url+“/ddtk/web/search”
row19：将请求得到的网页信息BeautifulSoup化，得到的网页信息是字符串，将其转化为BeautifulSoup后可以使用其语法帮助我们筛选想要的数据，当时学的时候我是这样理解的，有人用微信发了我100个人的名字，我很难找到有没有我，于是我将名字放在word文档上，我就可以使用word的查找功能一下子查看有没有我的名字
row21：因查找题目后会有多个结果，于是弄了一个遍历，len统计得到的所有结果
row22：通过BeautifulSoup查找所有的参考答案的href

3、点击参考答案进入查看答案页面

得到查看答案页面的网址是base_url+参考答案的href（linktimu=ddtk/web/detail/0/363259）

row26：发送get请求得到查看答案页面的网页信息
row27：将得到的信息BeautifulSoup化
row29至row32：得到题目信息，使用re模块的正则表达式功能去除题目信息的所有空格和换行符
row34至row38：得到选项信息，使用正则表达式得到选项的信息，并将每个选项变成列表的一个元素，移除所有""值

4、查看答案

点击查看，得到一个新的网页信息https://www.ddtk.vip/ddtk/web/viewAnswer/363259?null,显示了答案为B

row41至row44：get请求得到答案后，将网页信息json()化，通过字典获得答案B

4、处理得到我想要的真正答案，而不是一个B这样的选项答案

因为我将选项用一个列表集合在一起，如果是个空集，说明我查看答案后，获得的不是一个选项，而是真切的答案

否则，则用以下这个判定方法得到我的答案

如果是A选项，那列表的第一个元素就是我的答案

END——————

大家看到我最后把答案赋值给pipei_answer，因为通过这种方式，我就可以不用像之前发的贴子一样，需要自己创建题库的方式来匹配答案

wsadqe110 发表于 2021-1-13 19:07

xhtdtk 发表于 2021-1-13 20:30

wsadqe110 发表于 2021-1-13 19:07
我用火车头测试了一下爬取答案每个IP好像是2次还是3次就需要购买会员，但是我看了一下会员获取答案次数 ...

👍🏻👍🏻👍🏻厉害了兄弟，不过这个小爬虫的主要用途是来帮忙完成考试的

xenonums 发表于 2021-1-12 22:11

教程详细，最近也在学爬虫，学习了:$qqq感谢楼主分享

xhtdtk 发表于 2021-1-12 22:32

那个想法是，考试的时候我弄了个自动截图的，现在有匹配的答案就可以自动选择了

Jesp 发表于 2021-1-12 23:25

有木有爆破网站登录的{:1_904:}没有验证码的那种

涂秋发表于 2021-1-13 00:31

嘻嘻，直接复现

o824 发表于 2021-1-13 00:55

谢谢分享学习下

白天起不来 发表于 2021-1-13 01:43

很好很详细。感谢楼主分享

hxh-linux 发表于 2021-1-13 03:32

Jesp 发表于 2021-1-12 23:25
有木有爆破网站登录的没有验证码的那种

scrapy-redis使用多台服务器然后利用中间件设置IP防封spider生成随机用户名密码疯狂注册
有验证码就是用打码平台,配合selenium进行识别
一般小型网站一个上午就可以被搞崩

byhsmile2017 发表于 2021-1-13 07:47

byhsmile2017 发表于 2021-1-13 07:53

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

当我的第一个爬虫尝试爬取题库答案，我有一个想法