小白学习 正则爬取百度小姐姐图片
本帖最后由 zheshen 于 2018-8-25 13:07 编辑本文采取了正则表达式正在学习请勿喷谢谢import requests
import re
import os
from urllib import request
HEADERS = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
def parse_page(url):
res = requests.get(url,headers=HEADERS)
text = res.content.decode('utf-8')
print(text)
photo_url = re.findall(r'.*?"thumbURL":"(.*?)"',text,re.DOTALL)
# print(photo_url)
title_url_1 = re.findall(r'.*?"fromPageTitle":"(.*?)<.*?>(.*?)<.*?>(.*?)"',text,re.DOTALL)
for x in range(len(photo_url)-1):
photo_url_1 = photo_url
t = title_url_1[0] + title_url_1[1] + title_url_1[2]
re.sub('[\??\.!。\-\+]','',t)
jpg = os.path.splitext(photo_url_1)[1]
name = t+jpg
request.urlretrieve(photo_url_1, 'imgs/' + name)
print('%s打印完成'%name)
print('打印完成')
def main():
url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%B0%8F%E5%A7%90%E5%A7%90&pn=0&gsm=50&ct=&ic=0&lm=-1&width=0&height=0'
parse_page(url)
if __name__=='__main__':
main()
请大家点下爱心 谢谢 占住沙发的位置, 然后再仔细的看看 小伙子加油,还是要实践实践 这个是什么语言?py? 看不懂,太高深了 mcb521 发表于 2018-8-25 14:54
看不懂,太高深了
其实就是一个正则而已 请规范代码
【公告】发帖代码插入教程
https://www.52pojie.cn/thread-713042-1-1.html
有点难 得好好学习一下了 支持一波 感谢分享 {:1_921:} 共同学习 一起进步
页:
[1]