Python爬取pixiv[P站]每日插画排行榜
本帖最后由 judgecx 于 2020-7-25 09:33 编辑import requests
from bs4 import BeautifulSoup
url='https://www.pixiv.net/ranking.php?mode=daily&content=illust'
#爬取图片详情链接
a=int(input("= "))
for i in range(0,a):
rg=requests.get(url)
rg.encoding = 'utf-8'
rg_html = BeautifulSoup(rg.text,'html.parser')
rg_pre = rg_html.prettify()
ln=1+i*2
in_url = str(rg_pre.split("artworks/").split("\""))
in_url = 'https://www.pixiv.net/artworks/'+in_url
#爬取原图链接
rgi=requests.get(in_url)
rgi.enconding = 'utf-8'
rgi_html = BeautifulSoup(rgi.text,'html.parser')
rgi_pre = rgi_html.prettify()
img_url = str(rgi_pre.split("original\":\"").split("\""))
#伪造请求绕过限制
user = {
'Referer': in_url
}
rgid=requests.get(img_url,headers=user)
print(img_url)
#下载图片
img=rgid.content
img_type = str(img_url.split("."))
img_num = i+1
with open('./'+str(img_num)+'.'+img_type,'wb') as f:
f.write(img)
只能爬五十张 麻烦大佬指点下 拜托了 judgecx 发表于 2020-7-25 10:08
其实我没看教程 我就requests和BeautifulSoup这两个库 然后写了点东西突然想着爬P站然后就 ...
那你再学个selenium吧
对了我最开始用的也是bs,但是我发现有的并不方便筛选,
推荐用lxml 里的 etree
xpath更精准,和正则差不多但是更易学 Ldfd 发表于 2020-7-25 10:06
你看的什么教程啊,太不负责了,国内漫画站全都动态加载。。。,是个教程都会告诉selenium
{:301_974:}其实我没看教程 我就requests和BeautifulSoup这两个库 然后写了点东西突然想着爬P站然后就写了都没去学爬虫哪方面的呢 留名~等有空试一下 dnightx7 发表于 2020-7-25 09:40
留名~等有空试一下
只能爬五十张 等大佬指点 学习了,Python 学习下,谢谢指导 好萌一只大辉宝 发表于 2020-7-25 09:43
学习了,Python
{:301_998:}python还是挺强大的 正在准备学一下python 一定好好学习 还是很有用的 是不是ip请求过多被反爬了?试试降低爬虫的速度在每个请求前面加上time.sleep,或者不停的更换代{过}{滤}理IP 我们应该努力学习认真对待 每一件事情 旖旎若鸿 发表于 2020-7-25 09:51
是不是ip请求过多被反爬了?试试降低爬虫的速度在每个请求前面加上time.sleep,或者不停的更换代{过}{滤}理 ...
不是这个原因 浏览网页的时候它会自动加载下面的 但是我写不出 python跑没自动加载下面的