zheshen 发表于 2018-8-25 13:02

小白学习 正则爬取百度小姐姐图片

本帖最后由 zheshen 于 2018-8-25 13:07 编辑

本文采取了正则表达式正在学习请勿喷谢谢import requests
import re
import os
from urllib import request
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
def parse_page(url):
   res = requests.get(url,headers=HEADERS)
   text = res.content.decode('utf-8')
   print(text)
   photo_url = re.findall(r'.*?"thumbURL":"(.*?)"',text,re.DOTALL)
   # print(photo_url)
   title_url_1 = re.findall(r'.*?"fromPageTitle":"(.*?)<.*?>(.*?)<.*?>(.*?)"',text,re.DOTALL)

   for x in range(len(photo_url)-1):
      photo_url_1 = photo_url
      t = title_url_1[0] + title_url_1[1] + title_url_1[2]
      re.sub('[\??\.!。\-\+]','',t)
      jpg = os.path.splitext(photo_url_1)[1]
      name = t+jpg
      request.urlretrieve(photo_url_1, 'imgs/' + name)
      print('%s打印完成'%name)
   print('打印完成')


def main():
   url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%B0%8F%E5%A7%90%E5%A7%90&pn=0&gsm=50&ct=&ic=0&lm=-1&width=0&height=0'
parse_page(url)

if __name__=='__main__':
   main()



请大家点下爱心 谢谢

dazui_0 发表于 2018-8-25 13:49

占住沙发的位置, 然后再仔细的看看

lomo369 发表于 2018-8-25 13:53

小伙子加油,还是要实践实践

a13737446797 发表于 2018-8-25 14:00

这个是什么语言?py?

mcb521 发表于 2018-8-25 14:54

看不懂,太高深了

zheshen 发表于 2018-8-25 15:00

mcb521 发表于 2018-8-25 14:54
看不懂,太高深了

其实就是一个正则而已

wushaominkk 发表于 2018-8-25 16:03

请规范代码
【公告】发帖代码插入教程
https://www.52pojie.cn/thread-713042-1-1.html

侧写师 发表于 2018-8-26 14:38

有点难 得好好学习一下了

小黑LLB 发表于 2019-2-11 15:59

支持一波 感谢分享 {:1_921:} 共同学习 一起进步
页: [1]
查看完整版本: 小白学习 正则爬取百度小姐姐图片