小白学习正则爬取百度小姐姐图片

zheshen 发表于 2018-8-25 13:02

本帖最后由 zheshen 于 2018-8-25 13:07 编辑

本文采取了正则表达式正在学习请勿喷谢谢import requests
import re
import os
from urllib import request
HEADERS = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
def parse_page(url):
res = requests.get(url,headers=HEADERS)
text = res.content.decode('utf-8')
print(text)
photo_url = re.findall(r'.*?"thumbURL":"(.*?)"',text,re.DOTALL)
# print(photo_url)
title_url_1 = re.findall(r'.*?"fromPageTitle":"(.*?)<.*?>(.*?)<.*?>(.*?)"',text,re.DOTALL)

for x in range(len(photo_url)-1):
   photo_url_1 = photo_url
   t = title_url_1[0] + title_url_1[1] + title_url_1[2]
   re.sub('[\?？\.!。\-\+]','',t)
   jpg = os.path.splitext(photo_url_1)[1]
   name = t+jpg
   request.urlretrieve(photo_url_1, 'imgs/' + name)
   print('%s打印完成'%name)
print('打印完成')

def main():
url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%B0%8F%E5%A7%90%E5%A7%90&pn=0&gsm=50&ct=&ic=0&lm=-1&width=0&height=0'
parse_page(url)

if __name__=='__main__':
main()

请大家点下爱心谢谢

dazui_0 发表于 2018-8-25 13:49

占住沙发的位置，然后再仔细的看看

lomo369 发表于 2018-8-25 13:53

小伙子加油，还是要实践实践

a13737446797 发表于 2018-8-25 14:00

这个是什么语言？py？

mcb521 发表于 2018-8-25 14:54

看不懂，太高深了

zheshen 发表于 2018-8-25 15:00

mcb521 发表于 2018-8-25 14:54
看不懂，太高深了

其实就是一个正则而已

wushaominkk 发表于 2018-8-25 16:03

请规范代码
【公告】发帖代码插入教程
https://www.52pojie.cn/thread-713042-1-1.html

侧写师 发表于 2018-8-26 14:38

有点难得好好学习一下了

小黑LLB 发表于 2019-2-11 15:59

支持一波感谢分享 {:1_921:} 共同学习一起进步

页: [1]

吾爱破解 - 52pojie.cn's Archiver

小白学习 正则爬取百度小姐姐图片

小白学习正则爬取百度小姐姐图片