【python】爬取最近流行的VIP影视资源

寒心烟雨情 · 发表于 2018-8-19 21:39

本帖最后由 wushaominkk 于 2018-8-20 09:27 编辑

刚刚花了差不多一个小时写了个爬虫。

学习python一段时间了，再次练手，代码比较多不足，分享给大家用。

很多那些现在流行的VIP也不过是去采集链接来播放，百万资源网是采集源之一，网站的影视资源非常的丰富，所以我采集的是这个网站。

采集到的链接可以直接播放。这个代码可以用来做api，这也算是我的目的，脚本配合web开发做成api，

准备把脚本挂到服务器，不管是做软件还是网站都可以调用这个api

代码里都写了注释，懂的人自然懂，不懂的慢慢学。才20行代码。

第一个贴，还不知道评分是什么样子的

---------------------------------废话完，上代码---------------------------------------

[Python] 纯文本查看 复制代码

import requests,re
def bwzy_pc(value):  #传进来的这个值是要搜索影视名
    url="http://www.baiwanzy.com/index.php?m=vod-search"
    data={'wd':value,'submit':'search'}
    headers={'Referer':'http://www.baiwanzy.com/index.php?m=vod-search','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
    try:
        req=requests.post(url=url,data=data,headers=headers).text   #以post提交数据
        re_url=re.findall('<div class="xing_vb">.*?<ul>.*?<li>.*?<a href="(.*?)".*?</ul>.*?</div>',req,re.S)[0]  #比配搜索到的第一个链接
        url_b='http://www.baiwanzy.com'
        if(re_url==url_b):
            return ('嗷，居然没有找到！')   #如果没有搜索结果则返回这个
        else:
            url_2=url_b+re_url     #拼接第二个URL
            req_url_2=requests.get(url_2).text    #以get的方式请求源码
            re_pm=re.findall('<div class="vodh">.*?<h2>(.*?)</h2>.*?<span>(.*?)</span>',req_url_2,re.S)[0]   #比配片名
            re_lj=re.findall('<div class="vodplayinfo">.*?<ul>(.*?)</ul>.*?</div>',req_url_2,re.S)[0]  #比配播放链接
            re_lj=re_lj.strip()  #去掉中前后的空白符
            re_mb=re.findall('<li>.*?/>(.*?)</li>',re_lj,re.S)   #对数据进行最后的清洗
            return re_mb
    except:return '啥？出现未知错误。'    #当爬虫出现错误时返回这个

鼠窜之徒 · 发表于 2018-8-20 18:02

寒心烟雨情发表于 2018-8-19 22:05
没有安装 requests

安装requests的时候显示以下代码，怎么解决？
Requirement already satisfied: requests in e:\python37\lib\site-packages (2.19.1)
Requirement already satisfied: chardet<3.1.0,>=3.0.2 in e:\python37\lib\site-packages (from requests) (3.0.4)
Requirement already satisfied: idna<2.8,>=2.5 in e:\python37\lib\site-packages (from requests) (2.7)
Requirement already satisfied: urllib3<1.24,>=1.21.1 in e:\python37\lib\site-packages (from requests) (1.23)
Requirement already satisfied: certifi>=2017.4.17 in e:\python37\lib\site-packages (from requests) (2018.8.13)
Pycharm还是显示说没有request模块

鼠窜之徒 · 发表于 2018-8-20 18:01

503671998 发表于 2018-8-19 22:09
你没有安装requests库

安装requests的时候显示以下代码，怎么解决？
Requirement already satisfied: requests in e:\python37\lib\site-packages (2.19.1)
Requirement already satisfied: chardet<3.1.0,>=3.0.2 in e:\python37\lib\site-packages (from requests) (3.0.4)
Requirement already satisfied: idna<2.8,>=2.5 in e:\python37\lib\site-packages (from requests) (2.7)
Requirement already satisfied: urllib3<1.24,>=1.21.1 in e:\python37\lib\site-packages (from requests) (1.23)
Requirement already satisfied: certifi>=2017.4.17 in e:\python37\lib\site-packages (from requests) (2018.8.13)
Pycharm还是显示说没有request模块

TaylorTaurus · 发表于 2018-8-19 21:46

感谢感谢！大佬大佬！

wyangdh · 发表于 2018-8-19 21:51

谢谢楼主分享

gaoyong0713 · 发表于 2018-8-19 21:51

可以学习，我要学习

lc5715232 · 发表于 2018-8-19 21:52

可以学习，我要学习

duanjf889 · 发表于 2018-8-19 21:55

谢谢楼主分享

鼠窜之徒 · 发表于 2018-8-19 21:56

import requests,re
ModuleNotFoundError: No module named 'requests'

Process finished with exit code 1

taik · 发表于 2018-8-19 21:58

大佬大佬！膜拜下！

寒心烟雨情 · 发表于 2018-8-19 22:05

鼠窜之徒发表于 2018-8-19 21:56
import requests,re
ModuleNotFoundError: No module named 'requests'

没有安装 requests

503671998 · 发表于 2018-8-19 22:09

鼠窜之徒发表于 2018-8-19 21:56
import requests,re
ModuleNotFoundError: No module named 'requests'

你没有安装requests库

帐号		自动登录	找回密码
密码			注册[Register]

[Python 原创] 【python】爬取最近流行的VIP影视资源

免费评分