吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 7913|回复: 29
收起左侧

[Python 原创] 当我的第一个爬虫尝试爬取题库答案,我有一个想法

  [复制链接]
xhtdtk 发表于 2021-1-12 22:05
本帖最后由 xhtdtk 于 2021-1-12 22:08 编辑

有一天晚上不知道该干什么,于是又看视频学习去了,主要是了解python的api接口测试。
基于学习完就实践的学习方式,第二天就尝试写一个题库网站的爬虫,但效果不好。
然后翻了很多帖子,又回顾了视频,突然间脑袋通了,第三天写代码顺手很多,也顺便把BeautifulSoup也学了。
开始分享学习吧。


1、登录
c90d829e9b2460c7ca2d641bc929313.png
爬取的题库网站是https://www.ddtk.vip按F12进入开发者模式选Network选Headers点击登录→输入错误的账号密码选择login获取了几个关键信息
1、Requesturlhttps://www.ddtk.vip/ddtk/web/login
2、data{username: "123", password: "123"}
d32ab882544ce292c88cf2b18430af4.png
row1至row3:需要用到的第三方库
row5:创建一个会话,用以保留登录后的数据
row6:基础网址
row8row11:账号密码
row12:传递账号密码信息,当我使用data=username_password时报错了,查看帖子才知道要将账号密码json化,于是json=username_password解决了报错
row13:打印登录信息,print(rep_login.text)得到的是文本,不好处理,于是将rep_login进行json(),得到一个字典,得到字典信息就方便多了
3c2f8d8e0465afbf353893c8af08634.png

2、搜索题目
19bfa6df2b68481bca36581a43d0c22.png
可以看到?后面的参数是key=123,123就是我需要查找的题目
而查找题目后我们就要点击参考答案,通过右键检查可以得到一个herf
a9bcacc4b2db2c16fb0730b424ce5cf.png
row16:将题目信息赋值于变量timu
row17:设置参数
row18:请求刚刚设置的参数,网址是base_url+“/ddtk/web/search
row19:将请求得到的网页信息BeautifulSoup化,得到的网页信息是字符串,将其转化为BeautifulSoup后可以使用其语法帮助我们筛选想要的数据,当时学的时候我是这样理解的,有人用微信发了我100个人的名字,我很难找到有没有我,于是我将名字放在word文档上,我就可以使用word的查找功能一下子查看有没有我的名字
row21:因查找题目后会有多个结果,于是弄了一个遍历,len统计得到的所有结果
row22:通过BeautifulSoup查找所有的参考答案的href
0a9625434df614b9e516ce03fa06e0b.png

3、点击参考答案进入查看答案页面
87beb573f48e52bcb41d35ac886142f.png
得到查看答案页面的网址是base_url+参考答案的href(linktimu=ddtk/web/detail/0/363259
a59ee709f310e3aa2ffdc147560080a.png
row26:发送get请求得到查看答案页面的网页信息
row27:将得到的信息BeautifulSoup化
row29至row32:得到题目信息,使用re模块的正则表达式功能去除题目信息的所有空格和换行符
row34至row38:得到选项信息,使用正则表达式得到选项的信息,并将每个选项变成列表的一个元素,移除所有""值
b9b200ac791f951574b3316a83664ef.png

4、查看答案
8b15199ddb70bf314ab846bbf490ba4.png
点击查看,得到一个新的网页信息https://www.ddtk.vip/ddtk/web/viewAnswer/363259?null,显示了答案为B
164b07ff64f5d111cfbd6909ca914fd.png
row41至row44:get请求得到答案后,将网页信息json()化,通过字典获得答案B
b77ce453d2d3bdd5cce84205b191941.png

4、处理得到我想要的真正答案,而不是一个B这样的选项答案
7c70ab2471c6cd6c1a14c237e7e9c3a.png
因为我将选项用一个列表集合在一起,如果是个空集,说明我查看答案后,获得的不是一个选项,而是真切的答案
84f36dfce8127fd09aa815791ffdfff.png
否则,则用以下这个判定方法得到我的答案
72f2fd3c057a13157f6eb8e3fa17e56.png
如果是A选项,那列表的第一个元素就是我的答案
b3812908a65ef9baa50a5c7d229ce05.png


END——————


大家看到我最后把答案赋值给pipei_answer,因为通过这种方式,我就可以不用像之前发的贴子一样,需要自己创建题库的方式来匹配答案

免费评分

参与人数 14吾爱币 +23 热心值 +12 收起 理由
冒死一搏 + 1 + 1 用心讨论,共获提升!
天空宫阙 + 2 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
不会上树的鱼 + 1 + 1 热心回复!
耿梦莹123 + 1 + 1 热心回复!
Dear_fansheng + 1 我很赞同!
Koardor + 1 + 1 我很赞同!
wxue + 1 + 1 谢谢@Thanks!
o824 + 1 + 1 谢谢@Thanks!
涂秋 + 1 热心回复!
塞活 + 1 + 1 热心回复!
苏紫方璇 + 10 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
theSeven + 1 热心回复!
glocksheep + 1 + 1 学习了!谢谢楼主分享的思路!
fCd9H#TjlaMBPSa + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

头像被屏蔽
wsadqe110 发表于 2021-1-13 19:07
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| xhtdtk 发表于 2021-1-13 20:30
wsadqe110 发表于 2021-1-13 19:07
我用火车头测试了一下  爬取答案每个IP好像是2次还是3次就需要购买会员,但是我看了一下 会员获取答案次数 ...

👍🏻👍🏻👍🏻厉害了兄弟,不过这个小爬虫的主要用途是来帮忙完成考试的
xenonums 发表于 2021-1-12 22:11
教程详细,最近也在学爬虫,学习了感谢楼主分享
 楼主| xhtdtk 发表于 2021-1-12 22:32
那个想法是,考试的时候我弄了个自动截图的,现在有匹配的答案就可以自动选择了
Jesp 发表于 2021-1-12 23:25
有木有爆破网站登录的没有验证码的那种
涂秋 发表于 2021-1-13 00:31
嘻嘻,直接复现
o824 发表于 2021-1-13 00:55
谢谢分享 学习下
白天起不来 发表于 2021-1-13 01:43
很好很详细。感谢楼主分享
hxh-linux 发表于 2021-1-13 03:32
Jesp 发表于 2021-1-12 23:25
有木有爆破网站登录的没有验证码的那种

scrapy-redis使用多台服务器 然后利用中间件设置IP防封  spider生成随机用户名密码  疯狂注册
有验证码就是用打码平台,配合selenium进行识别
一般小型网站一个上午就可以被搞崩
头像被屏蔽
byhsmile2017 发表于 2021-1-13 07:47
提示: 作者被禁止或删除 内容自动屏蔽
头像被屏蔽
byhsmile2017 发表于 2021-1-13 07:53
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 15:43

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表