b站的爬虫视频真不错，分享自己跟着写的壁纸爬虫代码

24WOK 发表于 2023-4-2 18:55

# 1.拿到主页面源代码，提取到子页面的地址 href
# 2.拿子页面的内容，从中找到图片下载地址
# 3.下载图片

import requests
from bs4 import BeautifulSoup
import time

domain = "https://www.umei.cc"
url = "https://www.umei.cc/bizhitupian/weimeibizhi/"
rese = requests.get(url)
rese.encoding = "utf-8" # 处理乱码

# 把源代码交给bs
page = BeautifulSoup(rese.text, "html.parser")# 指定html解析器

son1 = page.find("div", class_="listlbc_cont_l").find_all("a", class_="img_album_btn")
for i in son1:
son2 = domain + i.get("href") #直接通过get拿到属性值，进行拼接

# 拿子页面源代码
son_rese = requests.get(son2)
son_rese.encoding = "utf-8"

# 从子页面拿下载路径
son_page = BeautifulSoup(son_rese.text, "html.parser")
down1 = son_page.find("div", class_="big-pic").find("img")
down2 = down1.get("src")

# 下载图片
down2_rese = requests.get(down2)
# down2_rese.content# 拿到图片字节

img_name = down2.split("/")[-1] # 拿到url最后一/的内容
with open("img/"+img_name, mode="wb") as f:
f.write(down2_rese.content)#图片内容写入文件

print("over", img_name)
time.sleep(1)

print("all is done")

#新手可以一起交流，推荐写代码用chatgpt，写代码这方面碾压文心一言几条街

sorryzzital 发表于 2023-4-2 19:42

之前也想学点爬虫，后来渐渐就没动力了。

Hangjau 发表于 2023-4-5 13:26

sorryzzital 发表于 2023-4-2 19:42
之前也想学点爬虫，后来渐渐就没动力了。

爬虫其实真的很简单的，我个人觉得现在的视频教程太罗里吧嗦的了。。。大部分其实都是培训教程直接发出来而已。往往看到这么长之后心里其实就在打鼓了。。。。而且大部分人学爬虫其实就那几点需求根本要不到整套的技术要求。遇到反爬高级的其实对于普通人来说最简单的就是绕过而不是去硬逆向解决它。因为你的需求根本就不必要去花那么多时间去解决它。后期如果自己有兴趣才会去大量的去做更高级的技术深入

ffuujian 发表于 2023-4-2 19:54

有没有视频地址分享下

24WOK 发表于 2023-4-2 19:54

sorryzzital 发表于 2023-4-2 19:42
之前也想学点爬虫，后来渐渐就没动力了。

一起学啊

偷油贼 发表于 2023-4-2 19:55

有没有教程地址分享下

24WOK 发表于 2023-4-2 19:58

偷油贼发表于 2023-4-2 19:55
有没有教程地址分享下

https://www.bilibili.com/video/BV1PM411B7La/?p=33&spm_id_from=pageDriver&vd_source=e81edbcfdb8c3ec515bbdcc367d6793c
樵夫爬虫，讲的比较有意思，是2020年的，有小部分案例失效了

walykyy 发表于 2023-4-2 20:06

你们可以求一份最新的路飞的8期Python爬虫

Stuzar 发表于 2023-4-2 20:18

拿走学习了

xipol 发表于 2023-4-2 20:27

看不懂是干嘛的。

外酥内嫩 发表于 2023-4-2 20:40

等学到后面你会发现bs4基本不用了，没有xpath好用，我工作后就没一次用过bs4，全是xpath和正则:lol

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

b站的爬虫视频真不错，分享自己跟着写的壁纸爬虫代码