本帖最后由 六哥。 于 2018-11-28 01:30 编辑
无聊随便写了一下,爬去某公司就业学生信息,使用了URLConnection写的,不过效率相对来说非常低,不过只是学习了JavaSe就想找点东西玩玩的,可以研究一下。
以下的判断是我屏蔽最后一条信息,那条信息是每个footer的信息,直接跳过。新手可以研究一下
package com.itzerone.url;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class UrlDemo {
public static void main(String[] args) {
URL url = null;
try {
for (int i = 90; i < 122; i++) {
url = new URL("http://www.jinghangzz.com/content.php?id=" + i);
URLConnection connection = url.openConnection();
connection.connect();
connection.setConnectTimeout(1);
InputStream input = connection.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(input, "utf-8"));
String len = null;
Pattern nameregx = Pattern.compile("[\\u4e00-\\u9fa5-\\s]{2,}[:][\\u4e00-\\u9fa5-[+||*||\\s||:]-[a-zA-Z0-9]]{1,}");
while ((len = br.readLine()) != null) {
Matcher m = nameregx.matcher(len);
while (m.find()) {
String name = m.group();
if(name.equals("地址:郑州市郑东新区博学路平安大道正商学府广场B座2305")){
continue;
}
System.out.println(i+"--"+name);
}
}
System.out.println("---------------------------------");
}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
|