吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6890|回复: 49
收起左侧

[Python 转载] 爬虫爬取微博写真照

  [复制链接]
狻猊帝 发表于 2020-6-12 00:48
本帖最后由 狻猊帝 于 2020-6-12 13:04 编辑

[md]### 小白写了一个抓取微博写真照的爬虫

```python
#抓取微博写真照
import requests
import re
import os
import time
cookie = {} # 这里cookie填写自己的 可以抓取多页 不填能抓取一页的
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4144.2 Safari/537.36'
}
get_order = input('是否启动程序? yes or no:   ')
number = 1
while True:
    if get_order != 'no':
        print('抓取中......')  # 下面的链接填写微博搜索的链接
        url = f'https://s.weibo.com/weibo?q=%23%E5%B0%91%E5%A5%B3%E5%86%99%E7%9C%9F%23&wvr=6&b=1&Refer=SWeibo_box&page={number}'
        response = requests.get(url, cookies=cookie)
        result = response.text
        print(result)
        detail = re.findall('data="uid=(.*?)&mid=(.*?)&pic_ids=(.*?)">', result)
        for part in detail:
            head = part[0]
            feet = part[2]
            feet = feet.split(',')
            for foot in feet:
                url_x = f'https://wx1.sinaimg.cn/large/{foot}.jpg'  # 这里就是大图链接了
                response_photo = requests.get(url_x, headers=header)
                file_name = url_x[-10:]
                if not os.path.exists('portrait/'+head):
                    os.mkdir('portrait/'+head)
                with open('portrait/'+head + '/' + file_name, 'ab') as f:  # 保存文件
                    f.write(response_photo.content)
                    time.sleep(0.5)
        print('获取完毕')
        get_order = input('是否继续获取下一页? Y:yes N:no:   ')
        if get_order != 'no':
            number += 1
        else:
            print('程序结束')
            break
    else:
        print('程序结束')
        break

```






### 图片画质很高 第一次发帖 有问题还请大佬们不吝赐教

免费评分

参与人数 11吾爱币 +10 热心值 +9 收起 理由
Hakutaku + 1 我很赞同!
霜九汐 + 1 + 1 谢谢@Thanks!
十九刺史 + 1 谢谢@Thanks!
17749856713 + 1 + 1 大哥分给你了 帮我看看代码吧
要帅 + 1 + 1 可以写一个爬微博地点的高清图片吗
星空下的流星 + 1 热心回复!
Lucifer_BW + 1 + 1 谢谢@Thanks!
zhminxp + 1 + 1 建议打包EXE啊
hulinchong + 1 这个可以 不用一个一个保存还看原图那么麻烦;了
王星星 + 2 + 1 谢谢@Thanks!
阿隆 + 1 + 1 我很赞同!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 狻猊帝 发表于 2020-6-12 12:59
本帖最后由 狻猊帝 于 2020-6-12 13:02 编辑

刚起床看到这么多人看有点惊讶的 谢谢大家的打赏
回答几个问题
这是测试的时候抓到的图片 有需要的直接拿去吧 抓了大概1G的图片
链接:https://pan.baidu.com/s/14jRQvmGQBGA2YlJq5i9tRA
提取码:idx2
理论上来说 微博搜索界面的图片都可以这样抓 不只是写真照
https://wx1.sinaimg.cn/large/{空}.jpg  # 这里就是大图链接了
我没直接找链接 因为那个是小图的 画质不高 上面是大图链接 把空里面填上对应的数值就可以
这个数值很好找  用点心自己找或者看我代码怎么找到的
要打包的抱歉了,我还不会 我只是个新手 你们自己弄吧 论坛鼓励自己动手嘛
cookie去百度下怎么找 填进去就可以了 有问题可以私信我 共同学习
还有也要问一下大家为什么大佬们发的代码都是黑色背景下的 怎么变成那样的
李李李李李 发表于 2020-6-12 09:16
yuyixia1000 发表于 2020-6-12 09:22
楼主大大   没python环境   能打个exe的包吗   支持你呦
hshcompass 发表于 2020-6-13 10:08
谢谢分享。
建议增加自动创建目录的两行语句,小白不会看代码会运行失败的。
编程小手 发表于 2020-6-12 09:15
前排,我来看看
阿隆 发表于 2020-6-12 09:19
强,666
captainleslie 发表于 2020-6-12 09:19
感谢分享 支持
hnwang 发表于 2020-6-12 09:26
感谢分享 去weibo关注下
zcm_0344 发表于 2020-6-12 09:27
光写真吗?谢谢分享,感谢非常
yitoumao 发表于 2020-6-12 09:33
这是开的小车
左耳近情 发表于 2020-6-12 09:41
感谢分享
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 15:12

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表