用爬虫写的小说漫画网站（多线程，已上线）

三木猿 发表于 2020-9-4 09:58

本帖最后由三木猿于 2020-9-10 12:34 编辑

jar包版：https://wws.lanzouj.com/ilcdzght3yj密码:4vmx
只是想用的直接拿jar包吧java -jar SanMuYuanBook-1.0-SNAPSHOT.jar 运行就行，然后在浏览器localhost:80访问
exe版：https://wws.lanzouj.com/ioi0qghw26d密码:b3z1
之前发的帖子沉了，这次希望别沉了，好歹写了很久的，嘤嘤嘤~项目放在了码云上，需要请自行下载（随便霍霍）https://gitee.com/sen_yang/SanMuYuanBook
1.首先是java目录，
com\aaa\config\SSLHelper.java这个是用来忽略网站安全证书的，不加他的话，就没次都需要下载要爬取的网站的安全证书，很麻烦，所以就干脆全部忽略。
com\aaa\config\ThreadExecutorConfig.java用来配置线程池
com\aaa\controller\BookController.java关于小说的各种操作
com\aaa\controller\CartoonController.java关于漫画的各种操作
com\aaa\data这个包获取数据的操作，项目核心都在这
com\aaa\util\DataProcessing.java用来数据处理，里面只有个分割list的方法
com\aaa\util\Download.java用来调用浏览器下载
com\aaa\util\GetDocument.java传入网址获取document对象
com\aaa\util\ZipUtils.java用来将漫画打包为zip

2.然后是前端
index是小说主界面
cartoonIndex是漫画主界面
Catalogue结尾的是目录界面
read开头的是阅读界面

代码都在项目里面自己看吧，另附运行截图
漫画模块截图

小说模块截图

2.我电脑上运行时所有页面加载速度平均为3s，网速好不到一秒，很多地方用到了线程池，不过只用了定长的线程池
3.项目已经部署在腾讯云服务器，http://49.235.253.131，部署在云上的加载速度慢，这个也是没办法的，咱只是个穷逼程序员，买云服务器都是学生优惠价{:1_936:}
项目部分代码
package com.aaa.data;

import com.aaa.config.SSLHelper;
import com.aaa.dto.BookCatalogueDto;
import com.aaa.entity.BookCatalogue;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.concurrent.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import static com.aaa.util.DataProcessing.splitList;

/**
* @AuThor 杨森
* @version 1.0
* @Title: BookCatalogue
* @date 2020/8/7 15:39
*/
public class BookCatalogueDB {

private static ExecutorService executorService;

public static List<BookCatalogueDto> setDataSource(String dataSource, String bookCod,ExecutorService executorService) {
   BookCatalogueDB.executorService =executorService;
   SSLHelper.init();
   if ("biquge5200".equals(dataSource)) {
         return biquge5200(bookCod);
   } else if ("biquge".equals(dataSource)) {
         return biquge(bookCod);
   }
   return null;
}

private static List<BookCatalogueDto> biquge5200(String bookCod) {
   try {
         Map<Integer,List<BookCatalogueDto>> bookCatalogueDtoMaps = new HashMap<>(3);
         Pattern pattern = Pattern.compile("<a\\s*href=\"?([\\w\\W]*?)\"?[\\s]*?[^>]>([\\s\\S]*?)(?=</a>)");
         Document document = Jsoup.connect("https://www.biquge5200.com/" + bookCod + "/").get();
         Elements dd = document.getElementsByTag("dd");
         Map<Integer, List<Element>> integerListMap = splitList(dd, 3);
         CountDownLatch latch=new CountDownLatch(3);
         for (int i = 0; i < 3; i++) {
            final int ins=i;
            executorService.execute(() -> {
               bookCatalogueDtoMaps.put(ins,get(integerListMap.get(ins), bookCod, document, pattern));
               latch.countDown();
            });
         }
         latch.await();
         List<BookCatalogueDto> bookCatalogueDtos=new ArrayList<>(dd.size());
         for (int i = 0; i < 3; i++) {
            bookCatalogueDtos.addAll(bookCatalogueDtoMaps.get(i));
         }
         return bookCatalogueDtos;
   } catch (IOException e) {
         e.printStackTrace();
   } catch (InterruptedException e) {
         e.printStackTrace();
   }finally {
         executorService.shutdown();
   }
   return null;
}

public static List<BookCatalogueDto> get(List<Element> dd, String bookCod, Document document, Pattern pattern) {
   List<BookCatalogueDto> bookCatalogueDtos = new ArrayList<>(dd.size());
   Element imgurl = document.getElementById("fmimg");
   Element intro = document.getElementById("intro");
   Element info = document.getElementById("info");
   Element child = info.child(1);
   String h1 = info.select("h1").text();
   for (int i = 0; i < dd.size(); i++) {
         Element element = dd.get(i);
         BookCatalogueDto bookCatalogueDto = new BookCatalogueDto();
         BookCatalogue bookCatalogue = new BookCatalogue();
         Node node = element.childNode(0);
         for (Node e : element.childNodes()) {
            if (!"".equals(e.toString())) {
               node = e;
            }
         }
         bookCatalogueDto.setCatalogueName(node.childNode(0).toString());
         String s1 = node.toString();
         Matcher matcher = pattern.matcher(s1);
         if (matcher.find()) {
            String nameCodeUrl = matcher.group(1);
            String insStr = nameCodeUrl.substring(nameCodeUrl.lastIndexOf("/") + 1, nameCodeUrl.lastIndexOf("."));
            bookCatalogueDto.setCatalogueCod(Integer.parseInt(insStr));
         }
         bookCatalogueDto.setBookName(h1);
         bookCatalogueDto.setBookIntro(intro.text());
         for(Node n :imgurl.childNodes()){
            if(n.toString().matches("(.*)img(.*)")){
               bookCatalogueDto.setBookImage(imgurl.childNode(0).toString());
            }
         }
         bookCatalogueDto.setBookCod(bookCod);
         bookCatalogueDto.setBookAuthor(child.text().replace("作者：",""));

         bookCatalogueDtos.add(bookCatalogueDto);
         if (i + 1 < dd.size()) {
            Node node1 = dd.get(i + 1).childNode(0);
            Matcher matcher1 = pattern.matcher(node1.toString());
            if (matcher1.find()) {
               String nameCodeUrl = matcher.group(1);
               String insStr = nameCodeUrl.substring(nameCodeUrl.lastIndexOf("/") + 1, nameCodeUrl.lastIndexOf("."));
               bookCatalogue.setNextCode(Integer.parseInt(insStr));
            }
         }

   }
   return bookCatalogueDtos;
}

private static List<BookCatalogueDto> biquge(String bookCod) {
   try {
         Pattern pattern = Pattern.compile("<a\\s*href=\"?([\\w\\W]*?)\"?[\\s]*?[^>]>([\\s\\S]*?)(?=</a>)");
         Document document = Jsoup.connect("https://www.biquge.com/" + bookCod + "/").get();

         Map<Integer,List<BookCatalogueDto>> bookCatalogueDtoMaps = new HashMap<>(3);
         Elements dd = document.getElementsByTag("dd");
         Map<Integer, List<Element>> integerListMap = splitList(dd, 3);
         CountDownLatch latch=new CountDownLatch(3);

         for (int i = 0; i <3; i++) {
            final int ins=i;
            executorService.execute(()->{
               bookCatalogueDtoMaps.put(ins,get(integerListMap.get(ins), bookCod, document, pattern)) ;
               latch.countDown();
            });
         }
         latch.await();
         List<BookCatalogueDto> bookCatalogueDtos=new ArrayList<>(dd.size());
         for (int i = 0; i < 3; i++) {
            bookCatalogueDtos.addAll(bookCatalogueDtoMaps.get(i));
         }
         return bookCatalogueDtos;
   } catch (Exception e) {
         e.printStackTrace();
   }finally {
         executorService.shutdown();
   }
   return null;
}
}

三木猿 发表于 2020-9-4 10:13

不会java的小伙纸，我之前的帖子有python版爬虫的教学

三木猿 发表于 2020-9-4 10:02

我就不信了，我随便写的python爬虫能火，咋个认真写的java网站不能火，java的弟兄们可比python多多了吧，满意的记得点赞评论

三木猿 发表于 2020-9-17 15:34

xxjackiexx 发表于 2020-9-17 15:26
楼主，有个建议，不知道是否过分，就是可不可以把小说源地址，写到配置文件里面，然后后续直接维护配置文件 ...

这样是比较规范点，当前项目写的不是特别完美，不能兼容很多的数据源，每新增一个数据源都挺麻烦的，所以就只有两个

平常芯 发表于 2020-9-4 10:09

JAVA是世界上最好的语言

aaa6668 发表于 2020-9-4 10:05

感谢楼主分享

simdabo 发表于 2020-9-4 10:07

感谢楼主分享。。

年轻的旅途 发表于 2020-9-4 10:08

这个能自动采集吗

三木猿 发表于 2020-9-4 10:09

年轻的旅途发表于 2020-9-4 10:08
这个能自动采集吗

现看现爬，实时的，没保存到服务器

方小云 发表于 2020-9-4 10:10

太复杂了，看不懂啊，还是爬虫好

三木猿 发表于 2020-9-4 10:12

三木猿发表于 2020-9-4 10:09
现看现爬，实时的，没保存到服务器

数据源固定不能自己设置爬取的网站，之后可能会继续改成自己设置数据源

页: [1] 2 3 4 5 6 7 8 9 10

吾爱破解 - 52pojie.cn's Archiver

用爬虫写的小说漫画网站（多线程，已上线）