寒心烟雨情 发表于 2018-8-19 21:39

【python】爬取最近流行的VIP影视资源

本帖最后由 wushaominkk 于 2018-8-20 09:27 编辑

刚刚花了差不多一个小时写了个爬虫。


学习python一段时间了,再次练手,代码比较多不足,分享给大家用。


很多那些现在流行的VIP也不过是去采集链接来播放,百万资源网是采集源之一,网站的影视资源非常的丰富,所以我采集的是这个网站。


采集到的链接可以直接播放。这个代码可以用来做api,这也算是我的目的,脚本配合web开发做成api,


准备把脚本挂到服务器,不管是做软件还是网站都可以调用这个api


代码里都写了注释,懂的人自然懂,不懂的慢慢学。才20行代码。

第一个贴,还不知道评分是什么样子的{:1_893:}

---------------------------------废话完,上代码---------------------------------------
import requests,re
def bwzy_pc(value):#传进来的这个值是要搜索影视名
    url="http://www.baiwanzy.com/index.php?m=vod-search"
    data={'wd':value,'submit':'search'}
    headers={'Referer':'http://www.baiwanzy.com/index.php?m=vod-search','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
    try:
      req=requests.post(url=url,data=data,headers=headers).text   #以post提交数据
      re_url=re.findall('<div class="xing_vb">.*?<ul>.*?<li>.*?<a href="(.*?)".*?</ul>.*?</div>',req,re.S)#比配搜索到的第一个链接
      url_b='http://www.baiwanzy.com'
      if(re_url==url_b):
            return ('嗷,居然没有找到!')   #如果没有搜索结果则返回这个
      else:
            url_2=url_b+re_url   #拼接第二个URL
            req_url_2=requests.get(url_2).text    #以get的方式请求源码
            re_pm=re.findall('<div class="vodh">.*?<h2>(.*?)</h2>.*?<span>(.*?)</span>',req_url_2,re.S)   #比配片名
            re_lj=re.findall('<div class="vodplayinfo">.*?<ul>(.*?)</ul>.*?</div>',req_url_2,re.S)#比配播放链接
            re_lj=re_lj.strip()#去掉中前后的空白符
            re_mb=re.findall('<li>.*?/>(.*?)</li>',re_lj,re.S)   #对数据进行最后的清洗
            return re_mb
    except:return '啥?出现未知错误。'    #当爬虫出现错误时返回这个


鼠窜之徒 发表于 2018-8-20 18:02

寒心烟雨情 发表于 2018-8-19 22:05
没有安装requests

安装requests的时候显示以下代码,怎么解决?
Requirement already satisfied: requests in e:\python37\lib\site-packages (2.19.1)
Requirement already satisfied: chardet<3.1.0,>=3.0.2 in e:\python37\lib\site-packages (from requests) (3.0.4)
Requirement already satisfied: idna<2.8,>=2.5 in e:\python37\lib\site-packages (from requests) (2.7)
Requirement already satisfied: urllib3<1.24,>=1.21.1 in e:\python37\lib\site-packages (from requests) (1.23)
Requirement already satisfied: certifi>=2017.4.17 in e:\python37\lib\site-packages (from requests) (2018.8.13)
Pycharm还是显示说没有request模块

鼠窜之徒 发表于 2018-8-20 18:01

503671998 发表于 2018-8-19 22:09
你没有安装requests库

安装requests的时候显示以下代码,怎么解决?
Requirement already satisfied: requests in e:\python37\lib\site-packages (2.19.1)
Requirement already satisfied: chardet<3.1.0,>=3.0.2 in e:\python37\lib\site-packages (from requests) (3.0.4)
Requirement already satisfied: idna<2.8,>=2.5 in e:\python37\lib\site-packages (from requests) (2.7)
Requirement already satisfied: urllib3<1.24,>=1.21.1 in e:\python37\lib\site-packages (from requests) (1.23)
Requirement already satisfied: certifi>=2017.4.17 in e:\python37\lib\site-packages (from requests) (2018.8.13)
Pycharm还是显示说没有request模块

TaylorTaurus 发表于 2018-8-19 21:46

感谢感谢!大佬大佬!

wyangdh 发表于 2018-8-19 21:51

谢谢楼主分享

gaoyong0713 发表于 2018-8-19 21:51

可以学习,我要学习

lc5715232 发表于 2018-8-19 21:52

可以学习,我要学习

duanjf889 发表于 2018-8-19 21:55

谢谢楼主分享

鼠窜之徒 发表于 2018-8-19 21:56

import requests,re
ModuleNotFoundError: No module named 'requests'

Process finished with exit code 1

taik 发表于 2018-8-19 21:58

大佬大佬!膜拜下!

寒心烟雨情 发表于 2018-8-19 22:05

鼠窜之徒 发表于 2018-8-19 21:56
import requests,re
ModuleNotFoundError: No module named 'requests'



没有安装requests

503671998 发表于 2018-8-19 22:09

鼠窜之徒 发表于 2018-8-19 21:56
import requests,re
ModuleNotFoundError: No module named 'requests'



你没有安装requests库
页: [1] 2 3 4
查看完整版本: 【python】爬取最近流行的VIP影视资源