今天就學到這裡吧,用到的內容就是bs4(BeautifulSoup)
break time now!
[Python] 纯文本查看 复制代码 import requests
from bs4 import BeautifulSoup
import time
# 需要蹂躪的網站
url = "https://www.umei.net/bizhitupian/weimeibizhi/"
resp = requests.get(url)
resp.encoding = "utf-8"
# print(resp.text)
page = BeautifulSoup(resp.text, "html.parser")
# 找到此頁面div標籤中class 為 TypeList的內容;再從中找到a標籤,進一步獲取想要的數據
alist = page.find("div", class_="TypeList").find_all("a")
# print(alist)
for a in alist:
# 拿到之後進行字符串拼接,以得到想要的href的鏈接
href = "https://www.umei.net/" + (a.get("href"))
# print(href)
# 獲得子頁面響應的數據,後續在對子頁面進行調教
child_page = requests.get(href)
child_page.encoding = "utf-8"
# 拿到的數據裝文本
child_text = child_page.text
# print(child_text)
# 拿到下載路徑
child = BeautifulSoup(child_text, "html.parser")
# 拿到p標籤為center的內容
p = child.find("p", align="center")
# 再獲得其p標籤為img的src的網址路徑
img = p.find("img").get("src")
# print(img)
img_resp = requests.get(img)
# 拿到最後一個“/"之後的內容作為文件名字
img_name = img.split("/")[-1]
# print(img_name)
# 放入img文件夾下,看起來乾淨點
with open("img/" + img_name, mode="wb") as f:
# 寫入文件
# img_resp.content 獲取到的內容
f.write(img_resp.content)
print("over!!", img_name)
# 休息一秒鐘,避免ban掉IP
time.sleep(1)
print("all over!!!")
在新标签打开所有链接复制所有链接URL复制所有链接URL(反向)复制所有链接标题 + URL复制所有链接标题 + URL (MD)复制所有链接标题 + URL (BBS)复制所有链接标题 + URL (筛选)复制所有链接标题 + URL (设置复制格式)在新标签页打开所有图片链接在一个标签页显示所有图片链接
复选框 - 选中
复选框 - 取消
复选框 - 反选
单选框 - 选中
单选框 - 取消
特殊单选框 - 选中 |