入门的JAVA爬虫实现（附代码）

Post author:xfxia
Post published:2023年8月22日
Post category:java

在写文章之前，我想先申明一下。我是一个刚刚开始学习JAVA的新手，所有我写的文章可能会很基础，而且还可能会出现一些低级错误，如果各位前辈发现任何错误，欢迎留言指出，小弟在此感激不尽。

首先，我和大家说一下我的思路。我是用的最简单的方法实现从网页上提取有用的信息的。

①写一个类读取网页的HTML代码的全部内容

②然后用对应的正则表达式获取你需要的对应的内容

③最后写了一个类把获取的所有有用的信息写到txt文本里

下面我就附上我写的代码，希望那些和我一样的新手能从中学习到一些有用的知识，前辈么就帮我看看纠纠错和指出哪些地方可以改进的。

第一步：写一个类读取网页的HTML代码的全部内容

package com;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

public class GetOneHtml {
	public static String getOneHtml(final String htmlurl) throws IOException {
		URL url;
		String temp;
		final StringBuffer sb = new StringBuffer();
		try {
			url = new URL(htmlurl);
			final BufferedReader in = new BufferedReader(new InputStreamReader(
					url.openStream(), "utf-8"));// 读取网页全部内容
			while ((temp = in.readLine()) != null) {
				sb.append(temp);
			}
			in.close();
		} catch (final MalformedURLException me) {
			System.out.println("你输入的URL格式有问题！");
			me.getMessage();
			throw me;
		} catch (final IOException e) {
			e.printStackTrace();
			throw e;
		}
		return sb.toString();
	}
}

原文链接：https://blog.csdn.net/chndata/article/details/50635411

Tags: java

你可能也喜欢