Python爬取郭德纲相声

qzh阑珊梦 · 发表于 2022-8-16 11:47

本帖最后由 qzh阑珊梦于 2022-8-16 18:45 编辑

最近想给我的华为手表下点相声跑步的时候听，于是找到了这个网站，但是最后的下载是毒盘，于是我选择最近爬取，一顿操作之后，下载了多达7g的音频文件，附上源码：

import requests
import re
import os

#代{过}{滤}理
# os.environ["http_proxy"] = "http://127.0.0.1:7890"
# os.environ["https_proxy"] = "http://127.0.0.1:7890"

def download_music(url, time):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0'}
    r = requests.get(url, headers=headers)
    html = r.text
    names = re.compile('{name: "\d+《(.*?)》"').findall(html)
    urls = re.compile(',artist: ".*?",url: "(.*?)",').findall(html)
    for i in range(0, len(names)):
        a = os.path.exists("郭德纲相声" + str(time))
        if not a:
            os.makedirs("郭德纲相声"+str(time))
        if os.path.exists("郭德纲相声"+str(time)+"/"+names[i]+".mp3"):
            print(str(names[i])+" 在表中")
        else:
            request_url = "https:" + urls[i]
            request_html = requests.get(request_url, headers=headers).content
            fh = open("郭德纲相声"+str(time)+"/"+names[i]+".mp3", "ab")
            fh.write(request_html)
            fh.flush()
            print(str(i+1)+"："+names[i]+" ok")
            fh.close()

for time in range(1, 8):
    url = "https://www.xsmp3.com/gdg-yq/gdg-yq-"+str(time)+".html"
    download_music(url, time)
    print("第"+str(time)+"个文件夹已下载完成！\n")

由于很久没有用python了所以写的有可能不太好不足之处请大家海涵！

代{过}{滤}理处是防止ip被ban，会用的用，不会用的过几个小时再下

成品:https://1drv.ms/u/s!An4x6YgGLrCugpBLxHP-l10xWxDFvg?e=svJkUH: 由于我不怎么用国内网盘所以放一个OneDrive网链明天再弄一个阿里云盘的链接

仅仅用于学习交流，请不要用于商业目的

cheny12120 · 发表于 2022-8-16 16:15

本帖最后由 cheny12120 于 2022-8-16 17:22 编辑

刚刚我换了一种方式，打开了，用

OneDrive直链获取工具转换一下

orangeware · 发表于 2023-1-9 17:48

按照楼主的代码生成了包，我这能正常打开直接进行下载。

郭德纲相声下载.exe
https://www.aliyundrive.com/s/WEVrhfLXTDo
点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速播放。

zhjm21 · 发表于 2022-8-16 11:58

这个网盘下不了！

我有美丽心情 · 发表于 2022-8-16 13:39

这个网盘下不了了
！

yyl530 · 发表于 2022-8-16 14:33

谢谢分享

luyusen15 · 发表于 2022-8-16 14:40

网站打不开

qiuyu2019 · 发表于 2022-8-16 15:24

楼主可以发个蓝奏云链接吗

zhanglzfx · 发表于 2022-8-16 15:47

链接搞不定啊，

lansemeiying · 发表于 2022-8-16 16:16

我也试试

muzi7861 · 发表于 2022-8-16 16:21

坐等别的网盘

感谢分享

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] Python爬取郭德纲相声

免费评分