用python实时爬取某资源站最新资源

寒心烟雨情 发表于 2018-8-29 20:53

本帖最后由寒心烟雨情于 2018-8-29 21:49 编辑

因为最近在用PHP练习写个网站，（以后应该开源），网站写得差不多了，但是网站没有内容，所以打算去爬别人的网站，充实一下自己的网站，去爬了某个资源网，主要是爬最新的资源。经过测试，只要是用相同模板的网站都可以爬。
其实很多网站都差不多，随便写个正则想爬什么都可以。

我已经把脚本挂到服务器了，调用接口就可以得到我们爬取的内容。

我把自己的接口发出来，大家如果有需要可以用 http://hh52.cn:6600/zyw/ziyuan/ （希望不是很多人用，不然我9块5的服务器是挺不住的）

代码可以看看，都写有注释，有很多可以拓展的，有时间我也还拓展。

import requests,time,re #一共三个模块，没装的先装

def zyw():
while(True):
   url='https://www.525zyw.com/'#爬的网站URL
   html=requests.get(url).text    #获取网站的首页源代码
   re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.*?)</div>.*?</li>',html,re.S) #比配最新资源
   list_r=''
   for i in re_url:
         tiem=re.findall('.*?>(.*?)</span>.*?',i,re.S) #这里的四个正则主要是进一步的提取我们需要的东西
         src=re.findall('.*?<img src="(.*?)"/>.*?',i,re.S) #
         href=re.findall('.*?<a href="(.*?)".*?',i,re.S)
         title=re.findall('.*?title="(.*?)".*?',i,re.S)
         res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a><br>'%(tiem,url,src,url,href,title,title)
         list_r=list_r+res #经过上面的拼接，这里是所有的内容加入一个字符串
   f=open('./templates/zyw.html','w') #打开文件
   f.write(list_r) #把字符串写入文件
   f.close()
   time.sleep(3600) #这里是每隔1个小时去爬一次，测试时先注释掉

if __name__ == '__main__':
zyw() #调用

统一回复：服务器是阿里云的学生服务器，马马虎虎挂点东西{:1_925:}

特百惠 发表于 2018-8-30 08:55

寒心烟雨情发表于 2018-8-29 22:44
对服务器不怎么懂，配个环境都搞了好久

其实配置环境很简单，就是看你选择什么面板了，如果配置iis这个确实有点麻烦！如果选个实用的面板就简单了！分分钟就搞定了！！

寒心烟雨情 发表于 2018-8-29 22:44

特百惠发表于 2018-8-29 22:02
阿里云的大学生扶贫服务器你们都不知道吗！！lz可以加个好友，一起学习下吗，你有什么好的教程分享下！也好 ...

对服务器不怎么懂，配个环境都搞了好久{:1_908:}

鸭店总裁 发表于 2018-8-29 21:10

比较感兴趣9块5的服务器

luoluoovo 发表于 2018-8-29 21:13

求同服务器

小小学生 发表于 2018-8-29 21:20

大家都在求9.5的服务器。。。。

已成落花 发表于 2018-8-29 21:23

求同款服务器

evilkid 发表于 2018-8-29 21:33

{:301_1004:}求同款服务器！！

loveajie 发表于 2018-8-29 21:41

大家都在求9.5的服务器。。。。

13137 发表于 2018-8-29 21:43

+1 服务器

寒心烟雨情 发表于 2018-8-29 21:46

鸭店总裁发表于 2018-8-29 21:10
比较感兴趣9块5的服务器

阿里云的学生服务器{:1_907:}挂点东西勉强够用

特百惠 发表于 2018-8-29 22:02

阿里云的大学生扶贫服务器你们都不知道吗！！lz可以加个好友，一起学习下吗，你有什么好的教程分享下！也好，谢谢

页: [1] 2 3

吾爱破解 - 52pojie.cn's Archiver

用python实时爬取某资源站最新资源