入门的JAVA爬虫实现(附代码)

  • Post author:
  • Post category:java



在写文章之前,我想先申明一下。我是一个刚刚开始学习JAVA的新手,所有我写的文章可能会很基础,而且还可能会出现一些低级错误,如果各位前辈发现任何错误,欢迎留言指出,小弟在此感激不尽。

首先,我和大家说一下我的思路。我是用的最简单的方法实现从网页上提取有用的信息的。


①写一个类读取网页的HTML代码的全部内容


②然后用对应的正则表达式获取你需要的对应的内容


③最后写了一个类把获取的所有有用的信息写到txt文本里


下面我就附上我写的代码,希望那些和我一样的新手能从中学习到一些有用的知识,前辈么就帮我看看纠纠错和指出哪些地方可以改进的。


第一步:写一个类读取网页的HTML代码的全部内容




package com;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

public class GetOneHtml {
	public static String getOneHtml(final String htmlurl) throws IOException {
		URL url;
		String temp;
		final StringBuffer sb = new StringBuffer();
		try {
			url = new URL(htmlurl);
			final BufferedReader in = new BufferedReader(new InputStreamReader(
					url.openStream(), "utf-8"));// 读取网页全部内容
			while ((temp = in.readLine()) != null) {
				sb.append(temp);
			}
			in.close();
		} catch (final MalformedURLException me) {
			System.out.println("你输入的URL格式有问题!");
			me.getMessage();
			throw me;
		} catch (final IOException e) {
			e.printStackTrace();
			throw e;
		}
		return sb.toString();
	}
}



版权声明:本文为chndata原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。