吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3249|回复: 12
收起左侧

[Java 转载] java 爬取网站的网页保存到本地

  [复制链接]
songjing 发表于 2022-2-28 15:55
本帖最后由 songjing 于 2022-2-28 16:02 编辑



感觉java底子不大好 就想看一下基础类教程补一补
奈何家里网络贼差 只有2G信号 网线又太贵(90一个月)
所以只好下载下来 然后回家慢慢看 就有了这个帖子
所用技术
  • java
  • jsoup
  • io


[Java] 纯文本查看 复制代码
package com.cron.cron.test;

import lombok.SneakyThrows;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;

/**
 * ClassName: downloadWeb
 * Description:
 * date: 2022/2/28 10:46
 *
 * @author robotname a
 * @author dev whz
 * @since JDK 1.8
 */

public class downloadWeb {

    @SneakyThrows
    public static void main(String[] args){
        String url = "https://www.liaoxuefeng.com/wiki/1252599548343744";
        long l = System.currentTimeMillis();
        //链接到目标地址
        Connection connect = Jsoup.connect(url);
        //设置useragent,设置超时时间,并以get请求方式请求服务器
        Document document = null;
        {
            try {
                document = connect.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").
                        timeout(6000).ignoreContentType(true).get();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        Element elementById = document.getElementById("x-sidebar-left");
        Element elementById1 = elementById.getElementById("1252599548343744");
        Elements a = elementById1.getElementsByTag("a");
        for (int i = 0; i < a.size(); i++) {
            String href = a.get(i).attr("href");
            try {
                url = "https://www.liaoxuefeng.com" + href;
                Connection connects = Jsoup.connect(url);
                document = connects.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").
                        timeout(6000).ignoreContentType(true).get();
                BufferedWriter writer = new BufferedWriter(new FileWriter(a.get(i).text()+".html"));
                writer.write(document.toString());
                writer.newLine();
            } catch (Exception e) {
                Thread.sleep(6000);
            }
        }
        System.err.println("下载用时"+(System.currentTimeMillis() - l));
    }
}

效果图


还不是很完善 样式并没有拉取 今天先写到这 明天继续 记录一下 加油后续会把css搞定 然后转成md文档 或者pdf的不再让生活苟且
不再与过去和解




image.png
332af31d251d4cc68de3499b8f5f4ed3.png

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
fu520 + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

yynsmjl 发表于 2022-3-1 11:13
songjing 发表于 2022-3-1 11:12
不行的  我技术还是差很多 完全就是兴趣而已

兴趣是最大的动力了,办公室很多摸鱼的,没啥技术提升
 楼主| songjing 发表于 2022-3-1 11:12
yynsmjl 发表于 2022-3-1 11:11
大佬可以搞搞爬虫,抽烟钱还是自由的

不行的  我技术还是差很多 完全就是兴趣而已
xiaozeng2005 发表于 2022-2-28 15:58
 楼主| songjing 发表于 2022-2-28 15:59

老式小区 到屋里就是2G
xiaozeng2005 发表于 2022-2-28 16:01
songjing 发表于 2022-2-28 15:59
老式小区 到屋里就是2G

那你买个路由器啊
 楼主| songjing 发表于 2022-2-28 16:02

一个月90大洋  烟都抽不起了
封心棒棒糖 发表于 2022-2-28 18:53
css ,js 咋整
 楼主| songjing 发表于 2022-3-1 08:58

差不多一样的原理
yynsmjl 发表于 2022-3-1 10:59
songjing 发表于 2022-2-28 16:02
一个月90大洋  烟都抽不起了

大佬会写java不至于。。。不至于
 楼主| songjing 发表于 2022-3-1 11:09
yynsmjl 发表于 2022-3-1 10:59
大佬会写java不至于。。。不至于

别别别 我就是菜鸡 闲的没事干 写了个这玩意
yynsmjl 发表于 2022-3-1 11:11
songjing 发表于 2022-3-1 11:09
别别别 我就是菜鸡 闲的没事干 写了个这玩意

大佬可以搞搞爬虫,抽烟钱还是自由的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-29 00:52

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表