b站的爬虫视频真不错,分享自己跟着写的壁纸爬虫代码
# 1.拿到主页面源代码,提取到子页面的地址 href# 2.拿子页面的内容,从中找到图片下载地址
# 3.下载图片
import requests
from bs4 import BeautifulSoup
import time
domain = "https://www.umei.cc"
url = "https://www.umei.cc/bizhitupian/weimeibizhi/"
rese = requests.get(url)
rese.encoding = "utf-8" # 处理乱码
# 把源代码交给bs
page = BeautifulSoup(rese.text, "html.parser")# 指定html解析器
son1 = page.find("div", class_="listlbc_cont_l").find_all("a", class_="img_album_btn")
for i in son1:
son2 = domain + i.get("href") #直接通过get拿到属性值,进行拼接
# 拿子页面源代码
son_rese = requests.get(son2)
son_rese.encoding = "utf-8"
# 从子页面拿下载路径
son_page = BeautifulSoup(son_rese.text, "html.parser")
down1 = son_page.find("div", class_="big-pic").find("img")
down2 = down1.get("src")
# 下载图片
down2_rese = requests.get(down2)
# down2_rese.content# 拿到图片字节
img_name = down2.split("/")[-1] # 拿到url最后一/的内容
with open("img/"+img_name, mode="wb") as f:
f.write(down2_rese.content)#图片内容写入文件
print("over", img_name)
time.sleep(1)
print("all is done")
#新手可以一起交流,推荐写代码用chatgpt,写代码这方面碾压文心一言几条街 之前也想学点爬虫,后来渐渐就没动力了。 sorryzzital 发表于 2023-4-2 19:42
之前也想学点爬虫,后来渐渐就没动力了。
爬虫其实真的很简单的, 我个人觉得现在的视频教程太罗里吧嗦的了。。。大部分其实都是培训教程直接发出来而已。往往看到这么长之后心里其实就在打鼓了。。。。而且大部分人学爬虫其实就那几点需求根本要不到整套的技术要求。 遇到反爬高级的 其实对于普通人来说最简单的就是绕过而不是去硬逆向解决它。因为你的需求根本就不必要去花那么多时间去解决它。后期如果自己有兴趣才会去大量的去做更高级的技术深入 有没有视频地址分享下 sorryzzital 发表于 2023-4-2 19:42
之前也想学点爬虫,后来渐渐就没动力了。
一起学啊 有没有教程地址分享下 偷油贼 发表于 2023-4-2 19:55
有没有教程地址分享下
https://www.bilibili.com/video/BV1PM411B7La/?p=33&spm_id_from=pageDriver&vd_source=e81edbcfdb8c3ec515bbdcc367d6793c
樵夫爬虫,讲的比较有意思,是2020年的,有小部分案例失效了 你们可以求一份最新的路飞的8期Python爬虫 拿走学习了
看不懂是干嘛的。 等学到后面你会发现bs4基本不用了,没有xpath好用,我工作后就没一次用过bs4,全是xpath和正则:lol