吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6195|回复: 44
收起左侧

[Python 转载] Python爬取pixiv[P站]每日插画排行榜

  [复制链接]
judgecx 发表于 2020-7-25 09:33
本帖最后由 judgecx 于 2020-7-25 09:33 编辑

[Python] 纯文本查看 复制代码
import requests
from bs4 import BeautifulSoup

url='https://www.pixiv.net/ranking.php?mode=daily&content=illust'

#爬取图片详情链接

a=int(input("= "))
for i in range(0,a):
    rg=requests.get(url)
    rg.encoding = 'utf-8'
    rg_html = BeautifulSoup(rg.text,'html.parser')
    rg_pre = rg_html.prettify()
    ln=1+i*2
    in_url = str(rg_pre.split("artworks/")[ln].split("\"")[0])
    in_url = 'https://www.pixiv.net/artworks/'+in_url 
    #爬取原图链接
    rgi=requests.get(in_url)
    rgi.enconding = 'utf-8'
    rgi_html = BeautifulSoup(rgi.text,'html.parser')
    rgi_pre = rgi_html.prettify()
    img_url = str(rgi_pre.split("original\":\"")[1].split("\"")[0])
    #伪造请求绕过限制
    user = {

    'Referer': in_url
}
    rgid=requests.get(img_url,headers=user)
    print(img_url)
    #下载图片
    img=rgid.content
    img_type = str(img_url.split(".")[3])
    img_num = i+1
    with open('./'+str(img_num)+'.'+img_type,'wb') as f:
        f.write(img)



只能爬五十张 麻烦大佬指点下 拜托了

免费评分

参与人数 3吾爱币 +2 热心值 +3 收起 理由
末氵祉铭 + 1 我很赞同!
未来已至 + 1 + 1 热心回复!
你又要白嫖了吗 + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

Ldfd 发表于 2020-7-25 10:11
judgecx 发表于 2020-7-25 10:08
其实我没看教程 我就requests和BeautifulSoup这两个库 然后写了点东西突然想着爬P站然后就 ...

那你再学个selenium吧
对了我最开始用的也是bs,但是我发现有的并不方便筛选,
推荐用lxml 里的 etree
xpath更精准,和正则差不多但是更易学
 楼主| judgecx 发表于 2020-7-25 10:08
Ldfd 发表于 2020-7-25 10:06
你看的什么教程啊,太不负责了,国内漫画站全都动态加载。。。,是个教程都会告诉selenium

  其实我没看教程 我就requests和BeautifulSoup这两个库 然后写了点东西突然想着爬P站然后就写了  都没去学爬虫哪方面的呢
dnightx7 发表于 2020-7-25 09:40
 楼主| judgecx 发表于 2020-7-25 09:43
dnightx7 发表于 2020-7-25 09:40
留名~等有空试一下

只能爬五十张 等大佬指点
好萌一只大辉宝 发表于 2020-7-25 09:43
学习了,Python
xy0225 发表于 2020-7-25 09:44
学习下,谢谢指导
 楼主| judgecx 发表于 2020-7-25 09:49

  python还是挺强大的
寻梦灵源 发表于 2020-7-25 09:51
正在准备学一下python   一定好好学习   还是很有用的
旖旎若鸿 发表于 2020-7-25 09:51
是不是ip请求过多被反爬了?试试降低爬虫的速度在每个请求前面加上time.sleep,或者不停的更换代{过}{滤}理IP
寻梦灵源 发表于 2020-7-25 09:52
我们应该努力学习认真对待 每一件事情
 楼主| judgecx 发表于 2020-7-25 09:54
旖旎若鸿 发表于 2020-7-25 09:51
是不是ip请求过多被反爬了?试试降低爬虫的速度在每个请求前面加上time.sleep,或者不停的更换代{过}{滤}理 ...

不是这个原因 浏览网页的时候它会自动加载下面的 但是我写不出 python跑没自动加载下面的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 08:44

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表