java 爬取网站的网页保存到本地
本帖最后由 songjing 于 2022-2-28 16:02 编辑感觉java底子不大好 就想看一下基础类教程补一补
奈何家里网络贼差 只有2G信号 网线又太贵(90一个月)
所以只好下载下来 然后回家慢慢看 就有了这个帖子
所用技术
[*]java
[*]jsoup
[*]io
package com.cron.cron.test;
import lombok.SneakyThrows;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
/**
* ClassName: downloadWeb
* Description:
* date: 2022/2/28 10:46
*
* @author robotname a
* @author dev whz
* @since JDK 1.8
*/
public class downloadWeb {
@SneakyThrows
public static void main(String[] args){
String url = "https://www.liaoxuefeng.com/wiki/1252599548343744";
long l = System.currentTimeMillis();
//链接到目标地址
Connection connect = Jsoup.connect(url);
//设置useragent,设置超时时间,并以get请求方式请求服务器
Document document = null;
{
try {
document = connect.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").
timeout(6000).ignoreContentType(true).get();
} catch (IOException e) {
e.printStackTrace();
}
}
Element elementById = document.getElementById("x-sidebar-left");
Element elementById1 = elementById.getElementById("1252599548343744");
Elements a = elementById1.getElementsByTag("a");
for (int i = 0; i < a.size(); i++) {
String href = a.get(i).attr("href");
try {
url = "https://www.liaoxuefeng.com" + href;
Connection connects = Jsoup.connect(url);
document = connects.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").
timeout(6000).ignoreContentType(true).get();
BufferedWriter writer = new BufferedWriter(new FileWriter(a.get(i).text()+".html"));
writer.write(document.toString());
writer.newLine();
} catch (Exception e) {
Thread.sleep(6000);
}
}
System.err.println("下载用时"+(System.currentTimeMillis() - l));
}
}
效果图
还不是很完善 样式并没有拉取 今天先写到这 明天继续 记录一下 加油后续会把css搞定 然后转成md文档 或者pdf的不再让生活苟且
不再与过去和解
songjing 发表于 2022-3-1 11:12
不行的我技术还是差很多 完全就是兴趣而已
兴趣是最大的动力了,办公室很多摸鱼的,没啥技术提升{:301_986:} yynsmjl 发表于 2022-3-1 11:11
大佬可以搞搞爬虫,抽烟钱还是自由的
不行的我技术还是差很多 完全就是兴趣而已 为啥你家没有信号:eee xiaozeng2005 发表于 2022-2-28 15:58
为啥你家没有信号
老式小区 到屋里就是2G songjing 发表于 2022-2-28 15:59
老式小区 到屋里就是2G
那你买个路由器啊 xiaozeng2005 发表于 2022-2-28 16:01
那你买个路由器啊
一个月90大洋烟都抽不起了 css ,js 咋整 封心棒棒糖 发表于 2022-2-28 18:53
css ,js 咋整
差不多一样的原理 songjing 发表于 2022-2-28 16:02
一个月90大洋烟都抽不起了
大佬会写java不至于。。。不至于{:301_992:} yynsmjl 发表于 2022-3-1 10:59
大佬会写java不至于。。。不至于
别别别 我就是菜鸡 闲的没事干 写了个这玩意 songjing 发表于 2022-3-1 11:09
别别别 我就是菜鸡 闲的没事干 写了个这玩意
大佬可以搞搞爬虫,抽烟钱还是自由的{:301_978:}
页:
[1]
2