好友
阅读权限30
听众
最后登录1970-1-1
|
本帖最后由 l2430478 于 2021-1-3 16:49 编辑
学习python一段时间了,进入了瓶颈,浅显的基础了解不少,但深层的东西没人指导,自学如同无头苍蝇,到处碰壁,好难!坚持着,坚持着,找到了这个详细的爬虫视频,真正从小白做起,感觉如同手把手教学,无需PyCharm 、Code、Anaconda,安装一个python就行,教程开始:
1、给新人发python3.8.1汉化版。
链接: https://pan.baidu.com/s/1bbtGBOgZywaTI3p0UMJWPQ 提取码: byrs
2、教程本来是压缩包,看起来不方便,为了大家,我下载解压后,逐个上传,并同时分享在百度 天翼了。
百度链接: https://pan.baidu.com/s/17pVkzug-MtZE3Z2BCn1_Bg 提取码: gdia
天翼链接https://cloud.189.cn/t/VB3eiyIv6jAv(访问码:se8b)
#爬虫概念、工真和HTTP
### 1.什么爬虫
爬虫就是'模似客户端(浏览器)发送网络请求',获取晌应,按照规则提取数据的程序
'模拟客户端 (浏览器)发送网络请求':照着浏览器发送一模一样的请求 ,获取和浏览器一横一样的数据
### 2,爬虫的敗据去哪了
-呈现出来:展示在网页上,或者是展示在app上
-进行分析:从数据中寻找一些规律
### 3.需要的软件和环境
-python3
-黑马python基础班15天视屏
-基础语法(字符串,列表,字典,判断和循环)
-函数(函数的创建和调用)
-面向对象(如何创建一个类,如何使用这个类)
-pycharm -python编辑器
-chrome浏览器 -分析网络请求用的
### 4.浏览器的请求
-url
-在chrome中点击检童,点到network,
-url =谓求的协议+网站的域名+资源的路径+参数
-浏览器谓求url地址
-当前url对应的晌应+js+css+图片—》elements中的内容
-爬虫谓求url地址
-当前url对应的晌应
- elements的内容和爬虫获取到的url地址的晌应不同,爬虫中需要以当 前url地址对应的响应为准提取数据
-当前url地址对应的晌应在哪里
-从network中找到当前的url地址,点击response
-在页面上右键显示网页源码
### 5.认识HTTP、HTTPS
-HTTP:超文本传输协议
-以明文的形式传输 效率更高,但是不安全
-HTTPS:HTTP + SSL (安全套接字层)
-传输之前数据先加密,之后解密获取内容
-效率较低,但是安全
-get请求和post请求的区别
-get请求没有请求体,post有,get请求把数据放到url地址中 -post请求常用于登录注册,
-post请求携带的数据量比get请求大,多,常用于传输大文本的时候
-HTTP协议之请求
-1.请求行
-2.请求头
-User-Agent:用户代{过}{滤}理:对方服务器能够通过user_agent知道当 前请求对方资源的是什么浏览器
-如果我们需要模拟手机版的浏览器发送请求,对应的,就需要 把use r_agent改成手机版
-Cookie:用来存储用户信息的,每次请求会被携带上发送给对方的 浏览器
-要获取登录后才能访问的页面
-对方的服务器会通过cookie来判断是我们是一个爬虫
-3.请求体
-携带数据
-get请求没有请求体
- post请求有请求体
|
免费评分
-
查看全部评分
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|