python爬虫萌新求解惑

头狼 · 发表于 2020-9-24 18:23

第一次学习爬虫，粗略浏览了些文章，看了几集视频，好多都是beautifulsoup那种找CSS结构的，感觉beautifulsoup那种模式很low，这是误解吗还是我没真正了解这个方法？我个人理解爬虫应该是那种抓包分析js，然后模拟操作什么的，beautifulsoup有这种方法吗？或者有别的库就是抓包玩法？python萌新求解

Menguy · 发表于 2020-9-24 18:47

提示: 作者被禁止或删除内容自动屏蔽

枫子树 · 发表于 2020-9-24 19:05

提示: 作者被禁止或删除内容自动屏蔽

漁滒 · 发表于 2020-9-24 19:13

先学好基础，会用正则，xpath，beautifulsoup去处理html，xml，json的数据。然后再去学习css反爬，js反爬等

追梦的人 · 发表于 2020-9-24 19:17

没有什么low不low的只要能爬到想要的资源就行，过程不重要

kun5815 · 发表于 2020-9-24 19:38

不都是看返回的数据是哪种，再用哪种方式吗？

风绕柳絮轻敲雪 · 发表于 2020-9-24 19:52

一个解析库而已，哪有什么low不low，该用的时候还不是要用.....

hellozl · 发表于 2020-9-24 20:03

BeautifulSoup也就用来洗个数据，你想抓包分析接口，正好，可以拿今日校园试试。

xmy00000 · 发表于 2020-9-24 20:43

bs4就是垃圾效率太低了，xpath、parse不香吗。。你说的分析js已经算是进阶了。这个需要有一定js基础，如果玩的溜就更好，更精深就是浏览器环境和风控。我认识一个大佬，goole验证码全套、al自己补头就能过，tb轻轻松松

senooo · 发表于 2020-9-24 21:12

慢慢来，开飞机也得先加油啊

帐号		自动登录	找回密码
密码			注册[Register]

Menguy Menguy 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	Menguy 发表于 2020-9-24 18:47 提示: 作者被禁止或删除内容自动屏蔽
	【吾爱破解论坛总版规】 - [让你充分了解吾爱破解论坛行为规则]
	回复支持 3 举报

枫子树枫子树当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	枫子树发表于 2020-9-24 19:05 吾爱破解论坛没有任何官方QQ群，禁止留联系方式，禁止任何商业交易。提示: 作者被禁止或删除内容自动屏蔽
枫子树枫子树当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	如何升级？如何获得积分？积分对应解释说明！
	回复支持举报

[求助] python爬虫萌新求解惑