本帖最后由 l2430478 于 2021-1-12 21:43 编辑
编程需要有耐心,需要有信心,不会我们可以摸索,本机环境建立好了,就可以拿别人的代码进行实践,模仿,修改。
只有摸索,才知道每一步的含义,好的代码多保存起来,便于下次我们借鉴。
朋友分享一个爬美女图片的代码,我尝试运行,并分析给大家。
此爬虫仅需要安装需要安装 pip install requests(不会的参考自学笔记七)
实践网站:https://www.vmgirls.com/(我看网站中已经打广告要出售,想练习代码的抓紧啦)
这个代码我看了,需要先找到一个带图片的网页,我随机打开了一个网页。https://www.vmgirls.com/15159.html
[Python] 纯文本查看 复制代码 # requests 请求 需要提前在Terminal中安装 pip install requests
import os
import time
import requests
# re正则
import re
# 改变自己身份
headers = {
'User-Agent': 'asbasdf'
}
# 请求网页
print("请输入你要爬取网站的链接")
httpurl = input()
response = requests.get(httpurl,headers = headers)
print(response.request.headers)
print(response.text)
html = response.text
# 解析网页
# view-source:[url=https://www.vmgirls.com/15159.html]https://www.vmgirls.com/15159.html[/url]
# 链接前加view-source查看网页源代码
dir_name = re.findall('<h1 class="post-title h1">(.*?)</h1>',html)[-1]
if not os.path.exists(dir_name):
os.mkdir(dir_name)
# 正则查找
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)
print(urls)
# 保存图片
for url in urls:
time.sleep(1)
# 图片名字
name = url.split('/')[-1]
response = requests.get("https:"+url,headers = headers)
print(name+"正在下载")
with open(dir_name+'/'+name,'wb') as f:
f.write(response.content)
print('下载完毕')
alt+回车后,出现一个输入框,粘贴https://www.vmgirls.com/15159.html进去,并回车。
就在默认文件夹(不会看默认文件夹的看我上个帖子)下生成一个文件夹,里面是该网页的图片。
我们尝试修改网址,随机找一个。https://www.vmgirls.com/14597.html
再次运行代码,图片再次生成,来来来,大家看下效果。
除了得到图片外,我们其实可以深入分析该代码。
代码运行后,调取了很多东西,这是已经爬成功的代码,有空的朋友可以研究研究,
可以尝试调用文字并保存到本地,能够快速提高水平。
来来来,给你们一个网址,你们练习爬。
https://www.vmgirls.com/13487.html
|