吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 23002|回复: 83
收起左侧

[Java 转载] java爬取妹子图整站图片14W张源代码分享

  [复制链接]
chen180 发表于 2019-1-19 22:03
本帖最后由 chen180 于 2019-1-20 11:28 编辑


java爬取妹子图整站图片。我只爬取了图片的地址写入到数据库中,并没有下载到本地。

经过测试大概一天左右能爬完,可以挂在服务器上爬。然后最后几页应该是模板的问题,然后没有继续爬,一直报错。不过也不在乎了6.7页懒得修改程序了。



数据库地址:mysql:
[Java] 纯文本查看 复制代码
String url = "jdbc:mysql://localhost:3306/test";
                        String username = "root";
                        String password = "root";


下载后务必运行v1.5


注意:


jar包运行需要如下条件:
先在c盘根目录下创建一个a.txt文件 别的盘符也行,代码中自己去改路径
然后运行如下代码: 然后在运行jar包。忘了说了
抓取妹子图全部图集地址代码:


[Java] 纯文本查看 复制代码
package com.cn.utils;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WriteFile {
	public static void main(String[] args) throws Exception {
		getURL();
	}
	
	public static void getURL() throws Exception {
		
		File file = new File("C:/a.txt");
		
		BufferedWriter bw = new BufferedWriter(new FileWriter(file));
		
		String flag ="";
		Document doc = null;
		for(int i = 1; i<207; i++){
			
			System.out.println("准备抓取第" + i+ "页");
			String url = "https://www.mzitu.com/page/"+i+"/";
			try {
				
				doc = Jsoup.connect(url).get();
				Elements lis = doc.select("#pins").select("li");
				for(Element li :lis){
					flag = li.select("a").get(0).attr("href");
					bw.write(flag + "\r\n");
					bw.flush();
				}
				bw.flush();
				System.out.println("图集地址抓取完毕");
			} catch (IOException e) {
				System.out.println("读取失败或写入失败");
				e.printStackTrace();
			}
		}
	}
}






jar.zip

1.53 MB, 阅读权限: 10, 下载次数: 809, 下载积分: 吾爱币 -1 CB

免费评分

参与人数 5吾爱币 +5 热心值 +4 收起 理由
不发光的银子 + 1 我很赞同!
y84131313 + 1 + 1 我很赞同!
xiaoqinqinlove + 1 + 1 我很赞同!
13418946402 + 1 + 1 谢谢@Thanks!
nio + 1 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| chen180 发表于 2019-1-20 11:25
萌萌哒的小白 发表于 2019-1-19 23:59
你这个C盘下还需要个a.txt文件,干什么的?怎么配置,我这运行上来就报错

忘了说了。是把所有的图片集的地址放入到C盘a.txt下了,爬取图片的时候读取a.txt中的地址,然后进入图集,爬取图集中的每一个图片,现在C盘根目录下随便创建一个a.txt,然后执行下面代码,然后在执行jar包。
代码:
[Java] 纯文本查看 复制代码
package com.cn.utils;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WriteFile {
	public static void main(String[] args) throws Exception {
		getURL();
	}
	
	public static void getURL() throws Exception {
		
		File file = new File("C:/a.txt");
		
		BufferedWriter bw = new BufferedWriter(new FileWriter(file));
		
		String flag ="";
		Document doc = null;
		for(int i = 1; i<207; i++){
			
			System.out.println("准备抓取第" + i+ "页");
			String url = "https://www.mzitu.com/page/"+i+"/";
			try {
				
				doc = Jsoup.connect(url).get();
				Elements lis = doc.select("#pins").select("li");
				for(Element li :lis){
					flag = li.select("a").get(0).attr("href");
					bw.write(flag + "\r\n");
					bw.flush();
				}
				bw.flush();
				System.out.println("图集地址抓取完毕");
			} catch (IOException e) {
				System.out.println("读取失败或写入失败");
				e.printStackTrace();
			}
		}
	}
}
萌萌哒的小白 发表于 2019-1-19 23:59
本帖最后由 萌萌哒的小白 于 2019-1-20 00:07 编辑

你这个C盘下还需要个a.txt文件,干什么的?怎么配置,我这运行上来就报错
nio 发表于 2019-1-19 22:18
leonwqhb 发表于 2019-1-19 22:37
14W的数据呀。。
这个搞下来又得占不少的硬盘。。
xbcaipiao 发表于 2019-1-19 22:42
日哦,大神,数据库,好难
nlomo 发表于 2019-1-19 23:06
又要学习了新技术了
dayer 发表于 2019-1-19 23:07
身体要不行了啊...
mzhsohu 发表于 2019-1-19 23:47
楼主能公布下哪个站的吗~!感谢分享~!
萌萌哒的小白 发表于 2019-1-19 23:49
数据库连接是写死的?不可配置?
头像被屏蔽
chen1234 发表于 2019-1-20 09:12 来自手机
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 21:41

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表