本帖最后由 wushaominkk 于 2018-8-20 09:27 编辑
刚刚花了差不多一个小时写了个爬虫。
学习python一段时间了,再次练手,代码比较多不足,分享给大家用。
很多那些现在流行的VIP也不过是去采集链接来播放,百万资源网是采集源之一,网站的影视资源非常的丰富,所以我采集的是这个网站。
采集到的链接可以直接播放。这个代码可以用来做api,这也算是我的目的,脚本配合web开发做成api,
准备把脚本挂到服务器,不管是做软件还是网站都可以调用这个api
代码里都写了注释,懂的人自然懂,不懂的慢慢学。才20行代码。
第一个贴,还不知道评分是什么样子的
---------------------------------废话完,上代码---------------------------------------
[Python] 纯文本查看 复制代码 import requests,re
def bwzy_pc(value): #传进来的这个值是要搜索影视名
url="http://www.baiwanzy.com/index.php?m=vod-search"
data={'wd':value,'submit':'search'}
headers={'Referer':'http://www.baiwanzy.com/index.php?m=vod-search','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
try:
req=requests.post(url=url,data=data,headers=headers).text #以post提交数据
re_url=re.findall('<div class="xing_vb">.*?<ul>.*?<li>.*?<a href="(.*?)".*?</ul>.*?</div>',req,re.S)[0] #比配搜索到的第一个链接
url_b='http://www.baiwanzy.com'
if(re_url==url_b):
return ('嗷,居然没有找到!') #如果没有搜索结果则返回这个
else:
url_2=url_b+re_url #拼接第二个URL
req_url_2=requests.get(url_2).text #以get的方式请求源码
re_pm=re.findall('<div class="vodh">.*?<h2>(.*?)</h2>.*?<span>(.*?)</span>',req_url_2,re.S)[0] #比配片名
re_lj=re.findall('<div class="vodplayinfo">.*?<ul>(.*?)</ul>.*?</div>',req_url_2,re.S)[0] #比配播放链接
re_lj=re_lj.strip() #去掉中前后的空白符
re_mb=re.findall('<li>.*?/>(.*?)</li>',re_lj,re.S) #对数据进行最后的清洗
return re_mb
except:return '啥?出现未知错误。' #当爬虫出现错误时返回这个
|