vtor 发表于 2021-11-16 11:07

pyhon爬虫学习笔记vtor-01

视频地址:https://www.bilibili.com/video/BV1i54y1h75W
【0】说明与安装pyhon,自行安装即可,记得在安装界面选上pip与path
pip用于安装pyhon第三方库,path用于简便使用命令行调用python程序
【1】python基础
101-熟悉基本输入
input(),output()
因为我有c/c++基础,所以基本使用可以很快掠过

【2】基本网络操作
201-知道urllib获取百度首页
202-requests操作百度翻译sug获得json(重要)
pip install requests
203-搜狗查询周杰伦,学会设置ua

【3】正则表达式
在线正则测试网站
https://tool.oschina.net/regex
重要知识点:.除了换行符的所有字符
        其中的任意一个字符
        *任意多个
        {n,m}最少n个,最多m个,都可以省略
        .*?惰性匹配
import re:导入re(正则)模块

list = re.findall,返回list,一般不使用
it = re.finditer,返回迭代器,可以用group()获取具体成员
re2 = re.compile(r"\d+"),预加载正则,以后的参数只需要字符串
data = re2.finditer("我的电话是213421,qq是3243");

r"<span.*?>(?P<name>.*?)</span>",re.S
(?P<分组名字>正则),print(it.group("name"))从正则中提取需要的字符串
re.S,让.可以匹配任意字符(包括换行符)
双引号含双引号:r"正则\"表达\"式",需要转义
单引号含双引号:r'正则"表达"式',不需要转义

【20211116】日【110609】秒
先到这里,以后再添加,如有错误,请指出,也欢迎一起讨论~

jupiterarrow 发表于 2021-11-16 13:27

一起学习{:1_893:}

小林影视 发表于 2021-11-16 13:57

我也在学习这一块得知识

w123321 发表于 2021-11-16 14:09

小林影视 发表于 2021-11-16 13:57
我也在学习这一块得知识

一起学习{:1_893:}

Behold 发表于 2021-11-16 14:22

一起一起啊

hezhigang 发表于 2021-11-16 14:59


一起一起啊

iuv99 发表于 2021-11-16 15:36

利用工作之余学习一下:lol

jasony0 发表于 2021-11-16 15:47

一起学习

cy2931 发表于 2021-11-16 21:18

加油,加油

vtor 发表于 2021-11-19 23:16

访问百度
# 导入url库
from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)
# 打印信息到控制台
#print(resp.read())
# 也可以保存到文件
with open("baidu.html",mode = "w") as f:
        f.write(resp.read().decode("utf-8"))
# 获取用户输入,阻塞界面消失
input("按回车键结束")
页: [1] 2
查看完整版本: pyhon爬虫学习笔记vtor-01