简易爬虫-抓取某个音乐网站的资源

蟹老板阿 发表于 2020-11-21 16:41

#!/usr/bin/python
# -*- coding: utf-8 -*-
import requests
import re
import time

songKey = []#存放歌曲key（url相关）
songNames = []#存放歌曲名称
Author = []

url = "https://www.hifini.com/" #网站首页的URL
#url = "<a href=\"thread-62290.htm\"……>金池《谁不是》</a><a href=\"thread-62290.htm\">金池《谁不是》</a>"
html= requests.get(url)
strr= html.text
pat1 = 'thread-......htm'
song_url = re.findall(pat1,strr)
song_url = set(song_url)
#part2 = re.findall('《*》',html)
#part0 = re.findall(r"^(<a href=\")(\d+)(\">)",url,re.M)#用于解析歌曲所在的html字符串的正则
#print song_url
for i in song_url:
song_html = requests.get("https://www.hifini.com/"+i)
strr2 = song_html.text
realsong_url = re.findall(' url: \'(.*?)\',',strr2,re.S)
songNames = re.findall(' title: \'(.*?)\',',strr2,re.S)
PicUrl = re.findall(' pic: \'(.*?)\'',strr2,re.S)
Author = re.findall(' author:\'(.*?)\',',strr2,re.S)

Realsong_url = "".join(realsong_url)
SongNames = "".join(songNames)
Picurl = "".join(PicUrl)
AuThor = "".join(Author)

print(Realsong_url)
print(SongNames)
print(Picurl)
print(AuThor)
print()
# source_data = "www.hifini.com/"+ Realsong_url
# print("song_url = " + source_data)
# print("song_name = " + SongNames)
# print("pic_url = " + Picurl)
# print("author = " + AuThor)
# print()

蟹老板阿 发表于 2020-11-27 14:52

papa08 发表于 2020-11-21 18:34
点赞楼主！一直都想学Python的，也想学这个爬虫，有学习资料什么好推荐的吗？

看bilibili自己学习，不要觉得python很难，python只是脚本语言，做基本的爬虫很简单

fuli2018 发表于 2020-11-28 02:59

蟹老板阿发表于 2020-11-24 20:40
我这个是极其简易的抓取脚本，不算严格意义上的爬虫，一切合法，只做学习用

看了是64k音质！一点用没有！么意义！浪费表情！需要高清建议不要下载了！白忙活

fuli2018 发表于 2020-11-21 17:39

是不是高清啊！还是128kb的啊

mrlee2333 发表于 2020-11-21 17:42

👍👍

乄Spectre乄 发表于 2020-11-21 17:46

感谢分享！！

lonelydrunk 发表于 2020-11-21 19:05

能不能加多点注释，小白不懂

Dream： 发表于 2020-11-21 19:20

纯小白看不懂

lmaxys 发表于 2020-11-21 21:45

以后的趋势是各网站反爬虫机制越来越健全

hshcompass 发表于 2020-11-22 08:50

谢谢分享

wanshiz 发表于 2020-11-22 10:57

谢谢分享，借鉴下。

健康的小牛牛 发表于 2020-11-22 11:25

正在学习中，抱走了，谢谢分享

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

简易爬虫-抓取某个音乐网站的资源