一个简单页面的代码结构如下:(test.html路径:C:\Users\lenovo\Desktop\test.html)
代码详情:
/**
* 解析字符串
*/
@Test
public void testString() throws Exception {
//使用工具类读取文件,获取字符串
String content = FileUtils.readFileToString(new File("C:\\Users\\lenovo\\Desktop\\test.html"), "utf8");
//解析字符串
Document document = Jsoup.parse(content);
String titleStr = document.getElementsByTag("title").first().text();
System.out.println(titleStr);
}
爬取数据的输出结果如下:
解析URL和解析字符串的区别?
主要的区别就是在解析字符串之前,先用工具类读取文件,获取字符串,之后的解析步骤跟URL并无区别。
版权声明:本文为zqq_2016原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。