一个小说网站的爬取求助

zhangxiaohu115 发表于 2020-12-1 13:31

本帖最后由 zhangxiaohu115 于 2020-12-2 08:39 编辑

刚学python爬虫，今天想爬取书趣阁的一本小说做个试验，加好header和cookies，发现不能GET到小说的正文，只能爬取到页面的其他部分，但是在浏览器的源代码中有小说正文，在“检查（F12）”中的doc界面中也有小说的正文，而XHR中没有任何的文件，说明这个不是通过Ajax来加载的，请问一下各位大神，这个网页是通过什么方式加载正文的，而大神们是通过什么库或者工具来爬取这类的网页（别用说selenium，那玩意效率太慢了，每爬取一页都需要打开一个浏览器。。。）

fisher 发表于 2020-12-1 14:10

为什么非要ajax才能加载?你对爬虫是不是有什么误解
除了ajax加载之外，还可以直接把文本写进html
直接解析dom就行了

rsnodame 发表于 2020-12-1 14:15

本帖最后由 rsnodame 于 2020-12-1 14:19 编辑

selenium，那玩意效率太慢了，每爬取一页都需要打开一个浏览器
{:301_1008:}这肯定是你selenium的方法不对……
发现不能GET到小说的正文
你是用啥办法确认正文在页面里的位置的？我试了下requests访问没问题

hjlarry 发表于 2020-12-1 14:19

https://github.com/bhcqzf/baiming/blob/master/%E4%B9%A6%E8%B6%A3%E9%98%81%E5%B0%8F%E8%AF%B4%E7%88%AC%E8%99%AB.py
随手搜到别人写好的，你自己参考琢磨吧

thepoy 发表于 2020-12-1 14:30

本帖最后由 thepoy 于 2020-12-1 14:32 编辑

人家本来就是把小说文字直接写在html里的，你找xhr响应的意义是什么？
如果爬虫底子不够，就不要先下决断，显得，有些可笑。

xbhog 发表于 2020-12-1 14:31

直接在网页里面就有，为啥要多此一举

zhangxiaohu115 发表于 2020-12-1 14:40

fisher 发表于 2020-12-1 14:10
为什么非要ajax才能加载?你对爬虫是不是有什么误解
除了ajax加载之外，还可以直接把文本写进html
直接解 ...

最开始我用request的获取网页的dom里面并没有小说的正文，所以以为是通过Ajax来加载的，但是发现并没有，所以觉得奇怪来问问

zhangxiaohu115 发表于 2020-12-1 14:45

rsnodame 发表于 2020-12-1 14:15
这肯定是你selenium的方法不对……

你是用啥办法确认正文在页面里的位置的？我试了下requ ...

request的访问时没有问题，但是获得的网页代码中并没有小说的正文，只有章节名。获取正文位置办法是用自己爬取的网页代码和浏览器的代码进行对比就可以得出来

rsnodame 发表于 2020-12-1 14:47

zhangxiaohu115 发表于 2020-12-1 14:45
request的访问时没有问题，但是获得的网页代码中并没有小说的正文，只有章节名。获取正文位置办法是用自 ...

你看一下header设置对不对。至于cookie这网站不用特别设置cookie。我自己用requests访问能正常得到正文。网站根本没用到ajax之类的动态加载

zhangxiaohu115 发表于 2020-12-1 14:47

thepoy 发表于 2020-12-1 14:30
人家本来就是把小说文字直接写在html里的，你找xhr响应的意义是什么？
如果爬虫底子不够，就不要先下决断 ...

如果是直接卸载HTML里，我直接用request就可以直接获取了，然而我得到的，里面只有小说的章节名，并没有小说正文。至于说xhr响应，只是最开始无法获取正文时正常的排查步骤而已。

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

一个小说网站的爬取求助