Python爬取pixiv[P站]每日插画排行榜

judgecx · 发表于 2020-7-25 09:33

本帖最后由 judgecx 于 2020-7-25 09:33 编辑

[Python] 纯文本查看 复制代码

import requests
from bs4 import BeautifulSoup

url='https://www.pixiv.net/ranking.php?mode=daily&content=illust'

#爬取图片详情链接

a=int(input("= "))
for i in range(0,a):
    rg=requests.get(url)
    rg.encoding = 'utf-8'
    rg_html = BeautifulSoup(rg.text,'html.parser')
    rg_pre = rg_html.prettify()
    ln=1+i*2
    in_url = str(rg_pre.split("artworks/")[ln].split("\"")[0])
    in_url = 'https://www.pixiv.net/artworks/'+in_url 
    #爬取原图链接
    rgi=requests.get(in_url)
    rgi.enconding = 'utf-8'
    rgi_html = BeautifulSoup(rgi.text,'html.parser')
    rgi_pre = rgi_html.prettify()
    img_url = str(rgi_pre.split("original\":\"")[1].split("\"")[0])
    #伪造请求绕过限制
    user = {

    'Referer': in_url
}
    rgid=requests.get(img_url,headers=user)
    print(img_url)
    #下载图片
    img=rgid.content
    img_type = str(img_url.split(".")[3])
    img_num = i+1
    with open('./'+str(img_num)+'.'+img_type,'wb') as f:
        f.write(img)

只能爬五十张麻烦大佬指点下拜托了

Ldfd · 发表于 2020-7-25 10:11

judgecx 发表于 2020-7-25 10:08
其实我没看教程我就requests和BeautifulSoup这两个库然后写了点东西突然想着爬P站然后就 ...

那你再学个selenium吧
对了我最开始用的也是bs，但是我发现有的并不方便筛选，
推荐用lxml 里的 etree
xpath更精准，和正则差不多但是更易学

judgecx · 发表于 2020-7-25 10:08

Ldfd 发表于 2020-7-25 10:06
你看的什么教程啊，太不负责了，国内漫画站全都动态加载。。。，是个教程都会告诉selenium

其实我没看教程我就requests和BeautifulSoup这两个库然后写了点东西突然想着爬P站然后就写了都没去学爬虫哪方面的呢

dnightx7 · 发表于 2020-7-25 09:40

留名~等有空试一下

judgecx · 发表于 2020-7-25 09:43

dnightx7 发表于 2020-7-25 09:40
留名~等有空试一下

只能爬五十张等大佬指点

好萌一只大辉宝 · 发表于 2020-7-25 09:43

学习了，Python

xy0225 · 发表于 2020-7-25 09:44

学习下，谢谢指导

judgecx · 发表于 2020-7-25 09:49

好萌一只大辉宝发表于 2020-7-25 09:43
学习了，Python

python还是挺强大的

寻梦灵源 · 发表于 2020-7-25 09:51

正在准备学一下python 一定好好学习还是很有用的

旖旎若鸿 · 发表于 2020-7-25 09:51

是不是ip请求过多被反爬了？试试降低爬虫的速度在每个请求前面加上time.sleep，或者不停的更换代{过}{滤}理IP

寻梦灵源 · 发表于 2020-7-25 09:52

我们应该努力学习认真对待每一件事情

judgecx · 发表于 2020-7-25 09:54

旖旎若鸿发表于 2020-7-25 09:51
是不是ip请求过多被反爬了？试试降低爬虫的速度在每个请求前面加上time.sleep，或者不停的更换代{过}{滤}理 ...

不是这个原因浏览网页的时候它会自动加载下面的但是我写不出 python跑没自动加载下面的

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] Python爬取pixiv[P站]每日插画排行榜

免费评分

浏览过的版块