我还没有真正测试 < a href=>" "http://jsoup.org/" rel="no follow" > Jsoup ,但是 < a href="http://jtidy.sourceforge.net/" rel="nofolge" > JTidy 在我需要使用类 org.w3c.tidy.Tidy
将HTML转换为 XML时非常有用。 这将自动转换实体 。
static String str1 = "Um grupo ligado à al-Qaeda assumiu o "
+ "ataque e ameaçou fazer outros.";
public static void main(String[] args) throws Exception {
System.out.println(cleanData(str1));
}
private static String cleanData(String data) throws UnsupportedEncodingException {
Tidy tidy = new Tidy();
tidy.setNumEntities(true); // to num entities
tidy.setPrintBodyOnly(true); // only print the content
tidy.setWraplen(Integer.MAX_VALUE); // wrap
ByteArrayInputStream inputStream = new ByteArrayInputStream(data.getBytes("UTF-8"));
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
tidy.parseDOM(inputStream, outputStream);
return outputStream.toString("UTF-8");
}
如果您愿意,您也可以得到 Document
实例。
public org.w3c.dom.Document parseDOM(Reader in, Writer out)
public org.w3c.dom.Document parseDOM(InputStream in, OutputStream out)