吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4310|回复: 9
收起左侧

[Python 原创] 【python】故宫预定人数纪录爬虫

  [复制链接]
天域至尊 发表于 2019-1-21 23:07
在此承认这个爬虫low的很,很的很!拜求小白和大佬不要骂……这次全当吸引外行同学的兴趣吧,预祝他们早日入坑。所以跟生活的联系我会多说些,技术上没多少好讲的,一日入门级的爬虫。
额,这个主要是我写的一个小爬虫,很简单。因为女友要跟姐姐和丈母娘春节去故宫玩,据说故宫搞了个什么展览,挺不错的。你们知道,关于未来老婆和丈母娘的事,那必须安排,必须往做好的安排!
一句话,安排!

门票不是问题,20块一张,便宜!但是问题是,故宫啊!春节啊!你要去见证在21世纪的当代,我国及其宏伟的人口基数以及传统的从众心理加上流行的网红集中打卡。
也就是说,没有数据支撑,这次精心安排可能就是 故宫一日游,精选特色景点,高个看脑袋,矮个看屁股。走路不动腿,大冬天保证挤得你汗如雨下,濒临中暑。
试想下,要是在大冬天,露天大院子的环境下,硬是靠广大的人民群众把丈母娘挤中暑了,那就玩大啦!

所以,没有数据支撑的安排,都是找怼。啥也不说了,收集数据。

首先需要的数据是故宫门票的销售趋势,以此来判断哪一天会比较万众仰望,然后错过高峰期。
那我就需要纪录每一段时间的销售数量,可以一天采集一次,一小时采集一次,十分钟采集一次。自己随意定,总之间隔时间短点比较好,但是也不是越短越好,间隔时间太短反而增大了数据量和工作量。


第一个问题:数据从哪里采集。
我在故宫的官网售票网页上,发现它会提醒每天还有多少余票。
1.jpg
我们发现这里果然有余票数量,那么数据会不会在源代码中呢?
这种数据往往是后来单独请求的,直接放入源代码的不是很多,但是不妨一试啊,看第一个1月22日,余票56812人。我们去源代码搜索下。
ctrl+u 打开源代码,ctrl+f搜索,输入56812,哎,搜索到了,真简单!
2.jpg
第二个问题,怎么把数据取出来
我这个用的比较简单,xpath直接取到<li>标签下的数据,再用python的字符串处理函数处理。
因为这部分比较简单,没啥好细讲的,一会看源代码吧。
第三个问题,软件大致流程
绘图1.png
绘图工具:亿图图示。吾爱站链接:https://www.52pojie.cn/thread-851432-1-1.html
第四个问题,编程
3.jpg 4.jpg
第五个问题,运行环境
我是在我云服务器上运行的,定的计划任务,每十分钟获取一次,存储到云服务器的数据库。
数据表列:
5.jpg
fdate是程序执行时的日期
ftime是程序执行时是几点几分
tdate是记录的是哪一天的余票
num是有多少余票
六、结果
给大家看看执行一会的数据
6.jpg
已经77条数据了!

技术的广泛程度决定找老婆的顺利程度。

免费评分

参与人数 2吾爱币 +4 热心值 +2 收起 理由
苏紫方璇 + 3 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
zhao3816504 + 1 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 天域至尊 发表于 2019-1-21 23:12
我去,我又忘了发源码了,发源码可以捞点币啊!算了,送你们了,别忘了给个评分啊,老铁们!百度网盘链接:https://pan.baidu.com/s/1H22bYEP9UDepzZu3-O4G0A
提取码:3dp4

免费评分

参与人数 1吾爱币 +1 收起 理由
spll6 + 1 拿去。顺便问一下,现在我这房价降了,老婆哪里领?

查看全部评分

睡觉不做梦 发表于 2019-1-21 23:33
_小白 发表于 2019-1-21 23:42
dayer 发表于 2019-1-22 00:17
感觉很厉害的样子
Thacker_hero 发表于 2019-1-22 00:18
感谢楼主分享!最后一句让我不禁滑稽了,hhh。
canaskpw 发表于 2019-1-22 02:05
感谢楼主,看来得多学点技术未来才能找到老婆
奔跑的小牛 发表于 2019-1-22 08:09
mark一下  刚学完基础语法  爬虫快要学到了
CPPKONONE 发表于 2019-1-22 20:20
鲜花鲜花,还未入坑,不慌
ahdysqg 发表于 2020-2-25 23:12
值得学习
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 23:34

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表