申请ID：前端小白

吾爱游客 *发表于 2020-6-23 09:25* · 发表于 2020-6-23 09:25

申请 I D：前端小白

个人邮箱：1845477671@qq.com

原创技术文章：使用NodeJS 进行爬虫下载小说信息

本人前端小白，目前还在努力学习中，给大家分享我在使用NodeJS进行爬虫操作，抓取小说信息并下载图片的过程

NodeJS进行爬虫操作并下载图片

以下开始教程

首先要先要导入以下几个模块，对应的作用已经写了注释
图片1.png

然后要先找想要爬的网站，并找出小说列表的页码和网址之间的规律，然后把他们都添加到数组中我这里用的起点中文网的，是在免费列表中的，
这里我就放了2个网址，防止爬取的数据过多，容易封IP

图片2.png

然后需要创建一个方法，这个方法是解析网页，并拿到网页中的数据进行操作，先把基础的框架搭好，先看是否可以执行。

图片3.png

接着需要用到异步函数了，限制并发量5条，遍历网址的数组，用每条url进行解析网页，最终得到数据。

图片4.png

接下来执行下函数,可以看出

图片5.png

由于2条网址太少了，达不到5条并发的要求，所以我用了20条，这样就可以很好的看出异步操作并发数据的好处了，接下来开始解析并抓取网页中的数据

使用superagent模块进行解析网页，获取网页DOM节点树，并设置网页的编码格式，然后判断当前操作是否有错误，如果有返回错误，没有继续下一步操作

使用 cheerio模块解析网页，定义$，因为和jQuery语法类似，方便理解，然后在网页找出需要抓取的数据的标签

图片6.png