爬虫爬取微博写真照

狻猊帝 · 发表于 2020-6-12 00:48

本帖最后由狻猊帝于 2020-6-12 13:04 编辑

[md]### 小白写了一个抓取微博写真照的爬虫

```python
#抓取微博写真照
import requests
import re
import os
import time
cookie = {} # 这里cookie填写自己的可以抓取多页不填能抓取一页的
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4144.2 Safari/537.36'
}
get_order = input('是否启动程序? yes or no: ')
number = 1
while True:
if get_order != 'no':
      print('抓取中......')  # 下面的链接填写微博搜索的链接
      url = f'https://s.weibo.com/weibo?q=%23%E5%B0%91%E5%A5%B3%E5%86%99%E7%9C%9F%23&wvr=6&b=1&Refer=SWeibo_box&page={number}'
      response = requests.get(url, cookies=cookie)
      result = response.text
      print(result)
      detail = re.findall('data="uid=(.*?)&mid=(.*?)&pic_ids=(.*?)">', result)
      for part in detail:
         head = part[0]
         feet = part[2]
         feet = feet.split(',')
         for foot in feet:
            url_x = f'https://wx1.sinaimg.cn/large/{foot}.jpg'  # 这里就是大图链接了
            response_photo = requests.get(url_x, headers=header)
            file_name = url_x[-10:]
            if not os.path.exists('portrait/'+head):
                  os.mkdir('portrait/'+head)
            with open('portrait/'+head + '/' + file_name, 'ab') as f:  # 保存文件
                  f.write(response_photo.content)
                  time.sleep(0.5)
      print('获取完毕')
      get_order = input('是否继续获取下一页? Y:yes N:no: ')
      if get_order != 'no':
         number += 1
      else:
         print('程序结束')
         break
else:
      print('程序结束')
      break

```

### 图片画质很高第一次发帖有问题还请大佬们不吝赐教

狻猊帝 · 发表于 2020-6-12 12:59

本帖最后由狻猊帝于 2020-6-12 13:02 编辑

刚起床看到这么多人看有点惊讶的谢谢大家的打赏
回答几个问题
这是测试的时候抓到的图片有需要的直接拿去吧抓了大概1G的图片
链接：https://pan.baidu.com/s/14jRQvmGQBGA2YlJq5i9tRA
提取码：idx2
理论上来说微博搜索界面的图片都可以这样抓不只是写真照
https://wx1.sinaimg.cn/large/{空}.jpg # 这里就是大图链接了
我没直接找链接因为那个是小图的画质不高上面是大图链接把空里面填上对应的数值就可以
这个数值很好找用点心自己找或者看我代码怎么找到的
要打包的抱歉了,我还不会我只是个新手你们自己弄吧论坛鼓励自己动手嘛
cookie去百度下怎么找填进去就可以了有问题可以私信我共同学习
还有也要问一下大家为什么大佬们发的代码都是黑色背景下的怎么变成那样的

李李李李李 · 发表于 2020-6-12 09:16

老色批了

yuyixia1000 · 发表于 2020-6-12 09:22

楼主大大没python环境能打个exe的包吗支持你呦

hshcompass · 发表于 2020-6-13 10:08

谢谢分享。
建议增加自动创建目录的两行语句，小白不会看代码会运行失败的。

编程小手 · 发表于 2020-6-12 09:15

前排，我来看看

阿隆 · 发表于 2020-6-12 09:19

强，666

captainleslie · 发表于 2020-6-12 09:19

感谢分享支持

hnwang · 发表于 2020-6-12 09:26

感谢分享去weibo关注下

zcm_0344 · 发表于 2020-6-12 09:27

光写真吗？谢谢分享，感谢非常

yitoumao · 发表于 2020-6-12 09:33

这是开的小车

左耳近情 · 发表于 2020-6-12 09:41

感谢分享

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 爬虫爬取微博写真照

免费评分

本帖被以下淘专辑推荐: