吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 8903|回复: 25
收起左侧

[Python 原创] 用python实时爬取某资源站最新资源

  [复制链接]
寒心烟雨情 发表于 2018-8-29 20:53
本帖最后由 寒心烟雨情 于 2018-8-29 21:49 编辑

因为最近在用PHP练习写个网站,(以后应该开源),网站写得差不多了,但是网站没有内容,所以打算去爬别人的网站,充实一下自己的网站,去爬了某个资源网,主要是爬最新的资源。经过测试,只要是用相同模板的网站都可以爬。
其实很多网站都差不多,随便写个正则想爬什么都可以。


我已经把脚本挂到服务器了,调用接口就可以得到我们爬取的内容。


我把自己的接口发出来,大家如果有需要可以用 http://hh52.cn:6600/zyw/ziyuan/   (希望不是很多人用,不然我9块5的服务器是挺不住的)


代码可以看看,都写有注释,有很多可以拓展的,有时间我也还拓展。




[Python] 纯文本查看 复制代码
import requests,time,re     #一共三个模块,没装的先装

def zyw():
    while(True):
        url='https://www.525zyw.com/'  #爬的网站URL
        html=requests.get(url).text        #获取网站的首页源代码
        re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.*?)</div>.*?</li>',html,re.S)   #比配最新资源
        list_r=''
        for i in re_url:
            tiem=re.findall('.*?>(.*?)</span>.*?',i,re.S)[0]   #这里的四个正则主要是进一步的提取我们需要的东西
            src=re.findall('.*?<img src="(.*?)"/>.*?',i,re.S)[0]   #
            href=re.findall('.*?<a href="(.*?)".*?',i,re.S)[0]
            title=re.findall('.*?title="(.*?)".*?',i,re.S)[0]
            res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a><br>'%(tiem,url,src,url,href,title,title)
            list_r=list_r+res   #经过上面的拼接,这里是所有的内容加入一个字符串
        f=open('./templates/zyw.html','w')   #打开文件
        f.write(list_r)    #把字符串写入文件
        f.close()
        time.sleep(3600)    #这里是每隔1个小时去爬一次,测试时先注释掉

if __name__ == '__main__':
    zyw()    #调用




360截图20180829203620594.jpg


统一回复:服务器是阿里云的学生服务器,马马虎虎挂点东西

免费评分

参与人数 4吾爱币 +4 热心值 +4 收起 理由
老是卖你们 + 1 + 1 谢谢@Thanks!
Catshark + 1 + 1 用心讨论,共获提升!
disikejj + 1 + 1 我很赞同!
love105827 + 1 + 1 给你分 服务器交出来

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

特百惠 发表于 2018-8-30 08:55
寒心烟雨情 发表于 2018-8-29 22:44
对服务器不怎么懂,配个环境都搞了好久

其实配置环境很简单,就是看你选择什么面板了,如果配置iis这个确实有点麻烦!如果选个实用的面板就简单了!分分钟就搞定了!!
 楼主| 寒心烟雨情 发表于 2018-8-29 22:44
特百惠 发表于 2018-8-29 22:02
阿里云的大学生扶贫服务器你们都不知道吗!!lz可以加个好友,一起学习下吗,你有什么好的教程分享下!也好 ...

对服务器不怎么懂,配个环境都搞了好久
鸭店总裁 发表于 2018-8-29 21:10
luoluoovo 发表于 2018-8-29 21:13
求同服务器
小小学生 发表于 2018-8-29 21:20
大家都在求9.5的服务器。。。。
已成落花 发表于 2018-8-29 21:23
求同款服务器
evilkid 发表于 2018-8-29 21:33
  求同款服务器!!
loveajie 发表于 2018-8-29 21:41

大家都在求9.5的服务器。。。。
13137 发表于 2018-8-29 21:43
+1 服务器
 楼主| 寒心烟雨情 发表于 2018-8-29 21:46
鸭店总裁 发表于 2018-8-29 21:10
比较感兴趣9块5的服务器

阿里云的学生服务器挂点东西勉强够用
特百惠 发表于 2018-8-29 22:02
阿里云的大学生扶贫服务器你们都不知道吗!!lz可以加个好友,一起学习下吗,你有什么好的教程分享下!也好,谢谢
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-15 23:18

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表