java html字符串转dom,在Java中，将html字符串转换为 org.w3c. dom.Document_java_开发99编程知识库…

从HTML字符串转换为org.w3c.dom.Document

我在用jtidy-r938.jar

这是我的代码：public static Document getDoc(String html) {

Tidy tidy = new Tidy();

tidy.setInputEncoding(“UTF-8”);

tidy.setOutputEncoding(“UTF-8”);

tidy.setWraplen(Integer.MAX_VALUE);

//tidy.setPrintBodyOnly(true);

tidy.setXmlOut(false);

tidy.setShowErrors(0);

tidy.setShowWarnings(false);

//tidy.setForceOutput(true);

tidy.setQuiet(true);

Writer out = new StringWriter();

PrintWriter dummyOut = new PrintWriter(out);

tidy.setErrout(dummyOut);

tidy.setSmartIndent(true);

ByteArrayInputStream inputStream = new ByteArrayInputStream(html.getBytes());

Document doc = tidy.parseDOM(inputStream, null);

return doc;

}

但有些时候图书馆工作不正常，有些标签丢失了。

请告诉一个好的开放库来完成这个任务。

非常感谢您！

Tags: java