judgecx 发表于 2020-7-25 09:33

Python爬取pixiv[P站]每日插画排行榜

本帖最后由 judgecx 于 2020-7-25 09:33 编辑

import requests
from bs4 import BeautifulSoup

url='https://www.pixiv.net/ranking.php?mode=daily&content=illust'

#爬取图片详情链接

a=int(input("= "))
for i in range(0,a):
    rg=requests.get(url)
    rg.encoding = 'utf-8'
    rg_html = BeautifulSoup(rg.text,'html.parser')
    rg_pre = rg_html.prettify()
    ln=1+i*2
    in_url = str(rg_pre.split("artworks/").split("\""))
    in_url = 'https://www.pixiv.net/artworks/'+in_url
    #爬取原图链接
    rgi=requests.get(in_url)
    rgi.enconding = 'utf-8'
    rgi_html = BeautifulSoup(rgi.text,'html.parser')
    rgi_pre = rgi_html.prettify()
    img_url = str(rgi_pre.split("original\":\"").split("\""))
    #伪造请求绕过限制
    user = {

    'Referer': in_url
}
    rgid=requests.get(img_url,headers=user)
    print(img_url)
    #下载图片
    img=rgid.content
    img_type = str(img_url.split("."))
    img_num = i+1
    with open('./'+str(img_num)+'.'+img_type,'wb') as f:
      f.write(img)



只能爬五十张 麻烦大佬指点下 拜托了

Ldfd 发表于 2020-7-25 10:11

judgecx 发表于 2020-7-25 10:08
其实我没看教程 我就requests和BeautifulSoup这两个库 然后写了点东西突然想着爬P站然后就 ...

那你再学个selenium吧
对了我最开始用的也是bs,但是我发现有的并不方便筛选,
推荐用lxml 里的 etree
xpath更精准,和正则差不多但是更易学

judgecx 发表于 2020-7-25 10:08

Ldfd 发表于 2020-7-25 10:06
你看的什么教程啊,太不负责了,国内漫画站全都动态加载。。。,是个教程都会告诉selenium

{:301_974:}其实我没看教程 我就requests和BeautifulSoup这两个库 然后写了点东西突然想着爬P站然后就写了都没去学爬虫哪方面的呢

dnightx7 发表于 2020-7-25 09:40

留名~等有空试一下

judgecx 发表于 2020-7-25 09:43

dnightx7 发表于 2020-7-25 09:40
留名~等有空试一下

只能爬五十张 等大佬指点

好萌一只大辉宝 发表于 2020-7-25 09:43

学习了,Python

xy0225 发表于 2020-7-25 09:44

学习下,谢谢指导

judgecx 发表于 2020-7-25 09:49

好萌一只大辉宝 发表于 2020-7-25 09:43
学习了,Python

{:301_998:}python还是挺强大的

寻梦灵源 发表于 2020-7-25 09:51

正在准备学一下python   一定好好学习   还是很有用的

旖旎若鸿 发表于 2020-7-25 09:51

是不是ip请求过多被反爬了?试试降低爬虫的速度在每个请求前面加上time.sleep,或者不停的更换代{过}{滤}理IP

寻梦灵源 发表于 2020-7-25 09:52

我们应该努力学习认真对待 每一件事情

judgecx 发表于 2020-7-25 09:54

旖旎若鸿 发表于 2020-7-25 09:51
是不是ip请求过多被反爬了?试试降低爬虫的速度在每个请求前面加上time.sleep,或者不停的更换代{过}{滤}理 ...

不是这个原因 浏览网页的时候它会自动加载下面的 但是我写不出 python跑没自动加载下面的
页: [1] 2 3 4 5
查看完整版本: Python爬取pixiv[P站]每日插画排行榜