爬取阿里云盘资源

SDU123 发表于 2021-11-1 15:45

本帖最后由 SDU123 于 2022-3-20 12:48 编辑

直接上代码

import requests
import re

class alipanso(object):
def __init__(self, url, headers, params):
   self.url = url
   self.headers = headers
   self.params = params

def get_html(self):
   response_html = requests.get(self.url, headers=self.headers, params=self.params)

   return response_html.content.decode()

def parse_response_html(self,page):
   response_data = self.get_html()
   url_name = re.findall('<a href="(.*?)".*\W*.*>\W*?(.*)\W*</a>', response_data)
   name_download_url = []
   n = 1
   flag = 1
   for i in url_name:
         if page == 1 and flag <= 3:
            flag += 1
            continue
         download_url = 'https://www.upyunso.com/' + i
         name = i
         name_download_url.append(f'{n}.' + name + '' + download_url)
         n += 1

   return name_download_url

if __name__ == '__main__':

word = input('请输入要搜索的资源名称：')
choose = '1.全部文件\n''2.视频\n''3.图片\n''4.文档\n''5.音频\n''6.压缩文件\n''7.其他'

print('请选择文件类型：')

print(choose)

num = input('请选择选项前的序号：')
line = input('请选择线路1或者线路2，输入1或2：')
format = {
   '1': 'all',
   '2': 'video',
   '3': 'image',
   '4': 'doc',
   '5': 'audio',
   '6': 'zip',
   '7': 'others'
}

url = 'https://www.upyunso.com/search.html'
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
}

for i in range(1, 10):

   params = {
         'page': f'{i}',
         'keyword': word,
         'search_folder_or_file': '0',
         'is_search_folder_content': '0',
         'is_search_path_title': '0',
         'category': format,
         'file_extension': 'all',
         'search_model': line
   }
   sosuo = alipanso(url, headers=headers, params=params)

   ziyuan = sosuo.parse_response_html(i)
   if ziyuan:
         print(f'第{i}页内容：')
         print(ziyuan)
   else:
         print('没有找到任何相关资源，请重新搜索')
         break

如果大家不想折腾，直接用官方网站：https://www.upyunso.com/search.html

JokerX 发表于 2021-11-1 15:53

这。。为什么不直接打开 https://www.alipanso.com/search.html 这个网页呢

_逛窑子 发表于 2021-11-12 10:42

请问阿里云盘上的一些秒传链接怎么用
例如:
2.Captain.America.The.Winter.Soldier.2014.REMASTERED.1080p.BluRay.x264.TrueHD.7.1.Atmos-MIX.mkv|20113919397|021DA3E4861ED34066C948EC6450742953C5345B|0F059BAF21D4F1CCB51F8FAF6DC0CBA1FE5BDD21

wakao163 发表于 2021-11-1 15:54

能查网盘内容吗

SDU123 发表于 2021-11-1 15:59

JokerX 发表于 2021-11-1 15:53
这。。为什么不直接打开 https://www.alipanso.com/search.html 这个网页呢

刚学习，练一下，用爬虫快一些{:301_997:}

SDU123 发表于 2021-11-1 16:00

wakao163 发表于 2021-11-1 15:54
能查网盘内容吗

现在需要自己打开链接查看{:301_997:}

yingsummery 发表于 2021-11-1 16:10

学习了，大神

fxone 发表于 2021-11-1 16:12

秀。

SDU123 发表于 2021-11-1 16:14

fxone 发表于 2021-11-1 16:12
秀。

主要是阿里牛{:301_997:}

216288461 发表于 2021-11-1 16:33

现在重命名的好多

SDU123 发表于 2021-11-1 16:38

216288461 发表于 2021-11-1 16:33
现在重命名的好多

我可以改一下，把列表改为字典就行了，不过链接会被覆盖

页: [1] 2 3 4 5 6 7 8 9 10

吾爱破解 - 52pojie.cn's Archiver

爬取阿里云盘资源