liqi 发表于 2019-7-18 19:44

爬腾讯视频评论(还有一些编程的心得)

今天可真的说是不知道一波几折了,我上午看教程看到10点多,然后自己动手,一共三个实战,一个是微信爬虫一个是抓包爬,还有一个是多线程爬虫,我 看了一下,微信爬虫就是加报头和代{过}{滤}理,然后出现问题再让它睡几秒,没啥意思,前几天连了很多了,然后就是多线程了,其实也很简单,就是定义几个class,然后设置条件,并发爬取,只要把代码放进class里面就ok了,也没啥意思,不过这个抓包爬取就很有意思了,着重练了抓包,又因为教程里面的是先分析第一个评论,然后原模原样的放上去,程序是很死的,而且第一页还爬不到,我怎么可能写死程序,当时让原模原样的网站,放上去就可以直接用的啦!!于是我写了一个比较活的脚本,思路就简单捋一捋吧
先打开要抓的那一页,fd清空里面抓的数据,接下来点击更多评论。看fd抓的那个js,分析里面的js内容,可以得出,里面的一个内容是下一页评论的地址,然后只要写表达式就可以轻松获取了,但是我可是要爬第一页的男孩纸,于是我从首页找信息,分析源码,终于找到了指向js评论的东西,然后脑袋里思路很多很多,因为是打开一个网站,搜索关键字,然后拼接网址,爬取评论,然后还要搜索关键字爬取第二个网站,依次循环,我就跪在这,试了很多方法都不行,输出的就两页,然后就是一直循环这两页下去,就这一点我从十点多做到了5点多,中途重新来换大思路换了3.4次,本来我想想算了吧,但是探索的路上就是这么艰辛,于是晚饭之际我一边吃一遍想,然后又出去走了走,终于找到了最终思路,花了一个小时写完了,现在回头想想,是多么的简单,虽然我比较慢,但我在前进。所以我希望看到这篇帖子的人,不要轻易放弃,或许你就离成功一点点了,曾经我也觉得,爬虫高大尚,肯定难,编程难,就这样我学都没写直接放弃了,沉迷游戏去了,但是现在我慢慢学,发现,真的很简单的



liqi 发表于 2019-7-19 20:53

追逐太阳 发表于 2019-7-19 17:06
你能不能爬取腾讯的高清视频的那种真实地址?

晚上的时候我试了一下,我抓不到他的真实地址,但我发现了又一个很神奇的东西,我快进视频,然后看抓的数据,里面有很多个ts文件,是腾讯视频的格式,我下载下来,正好是我快进的视频,所以我推断,腾讯视频应该是把一个mp4文件切片,切成一大堆的ts文件,加载,播放,手机上 的客户端也是同理

jidesheng6 发表于 2019-7-22 13:43

雷晨 发表于 2019-7-18 21:13
楼主你看一下http://mzsock.com/这个你能不能爬

这网站挺好爬的,单一模块进入,获取源码得到总共有多少个帖子,分析一下大概一页算是20个,总的除以20,得到结果+1就是动态加载的总页数,依次加载以后获取其中的帖子链接再次获取得到里面的图片链接然后下载回来,自己分析一下把

liqi 发表于 2019-7-18 19:45

链接:https://pan.baidu.com/s/1Px1DDmJwrH5i0vgBD9U-sw
提取码:ln1o
复制这段内容后打开百度网盘手机App,操作更方便哦

追逐太阳 发表于 2019-7-18 20:50

我今天开始学习的爬虫,这个python做的和java做的爬虫又什么区别呢?

liqi 发表于 2019-7-18 20:52

追逐太阳 发表于 2019-7-18 20:50
我今天开始学习的爬虫,这个python做的和java做的爬虫又什么区别呢?

除了代码不一样其他都一样

追逐太阳 发表于 2019-7-18 20:54

liqi 发表于 2019-7-18 20:52
除了代码不一样其他都一样

爬取的思路和使用的核心技术一样吗?

雷晨 发表于 2019-7-18 21:10

楼主你会java吗?

雷晨 发表于 2019-7-18 21:13

楼主你看一下http://mzsock.com/这个你能不能爬

qwertyuiop1822 发表于 2019-7-18 23:16

雷晨 发表于 2019-7-18 21:13
楼主你看一下http://mzsock.com/这个你能不能爬

正常来说,这种网址都挺好爬的

wushaominkk 发表于 2019-7-19 08:28

这排版看的头晕,希望楼主优化下

liqi 发表于 2019-7-19 09:21

雷晨 发表于 2019-7-18 21:10
楼主你会java吗?

python学的差不多就学java
页: [1] 2
查看完整版本: 爬腾讯视频评论(还有一些编程的心得)