Python爬取pixiv[P站]每日插画排行榜

judgecx 发表于 2020-7-25 09:33

本帖最后由 judgecx 于 2020-7-25 09:33 编辑

import requests
from bs4 import BeautifulSoup

url='https://www.pixiv.net/ranking.php?mode=daily&content=illust'

#爬取图片详情链接

a=int(input("= "))
for i in range(0,a):
rg=requests.get(url)
rg.encoding = 'utf-8'
rg_html = BeautifulSoup(rg.text,'html.parser')
rg_pre = rg_html.prettify()
ln=1+i*2
in_url = str(rg_pre.split("artworks/").split("\""))
in_url = 'https://www.pixiv.net/artworks/'+in_url
#爬取原图链接
rgi=requests.get(in_url)
rgi.enconding = 'utf-8'
rgi_html = BeautifulSoup(rgi.text,'html.parser')
rgi_pre = rgi_html.prettify()
img_url = str(rgi_pre.split("original\":\"").split("\""))
#伪造请求绕过限制
user = {

'Referer': in_url
}
rgid=requests.get(img_url,headers=user)
print(img_url)
#下载图片
img=rgid.content
img_type = str(img_url.split("."))
img_num = i+1
with open('./'+str(img_num)+'.'+img_type,'wb') as f:
f.write(img)

只能爬五十张麻烦大佬指点下拜托了

Ldfd 发表于 2020-7-25 10:11

judgecx 发表于 2020-7-25 10:08
其实我没看教程我就requests和BeautifulSoup这两个库然后写了点东西突然想着爬P站然后就 ...

那你再学个selenium吧
对了我最开始用的也是bs，但是我发现有的并不方便筛选，
推荐用lxml 里的 etree
xpath更精准，和正则差不多但是更易学

judgecx 发表于 2020-7-25 10:08

Ldfd 发表于 2020-7-25 10:06
你看的什么教程啊，太不负责了，国内漫画站全都动态加载。。。，是个教程都会告诉selenium

{:301_974:}其实我没看教程我就requests和BeautifulSoup这两个库然后写了点东西突然想着爬P站然后就写了都没去学爬虫哪方面的呢

dnightx7 发表于 2020-7-25 09:40

留名~等有空试一下

judgecx 发表于 2020-7-25 09:43

dnightx7 发表于 2020-7-25 09:40
留名~等有空试一下

只能爬五十张等大佬指点

好萌一只大辉宝 发表于 2020-7-25 09:43

学习了，Python

xy0225 发表于 2020-7-25 09:44

学习下，谢谢指导

judgecx 发表于 2020-7-25 09:49

好萌一只大辉宝发表于 2020-7-25 09:43
学习了，Python

{:301_998:}python还是挺强大的

寻梦灵源 发表于 2020-7-25 09:51

正在准备学一下python 一定好好学习还是很有用的

旖旎若鸿 发表于 2020-7-25 09:51

是不是ip请求过多被反爬了？试试降低爬虫的速度在每个请求前面加上time.sleep，或者不停的更换代{过}{滤}理IP

寻梦灵源 发表于 2020-7-25 09:52

我们应该努力学习认真对待每一件事情

judgecx 发表于 2020-7-25 09:54

旖旎若鸿发表于 2020-7-25 09:51
是不是ip请求过多被反爬了？试试降低爬虫的速度在每个请求前面加上time.sleep，或者不停的更换代{过}{滤}理 ...

不是这个原因浏览网页的时候它会自动加载下面的但是我写不出 python跑没自动加载下面的

页: [1] 2 3 4 5

吾爱破解 - 52pojie.cn's Archiver

Python爬取pixiv[P站]每日插画排行榜