Question

我拥有从 java.io.InputStream 返回 org.w3c.dom.Document 返回的 XHTML 文档装入该文档的方法。

private Document loadDocFrom(InputStream is) throws SAXException,
        IOException, ParserConfigurationException {
    DocumentBuilderFactory domFactory = DocumentBuilderFactory
            .newInstance();
    domFactory.setNamespaceAware(true); // never forget this
    DocumentBuilder builder = domFactory.newDocumentBuilder();

    Document doc = builder.parse(is);
    is.close();
    return doc;
}

这个方法行之有效,我用一些 XHTML 文件(例如 < code> http://pastebin.com/L2kHwggU )和 XHTML 网站测试了它。

但是,对于某些文件,例如“http://pastebin.com/v675yWSJ” rel=“nofollow”>>http://pastebin.com/v675yWSJ ,甚至像www.w3.org 这样的网站,在Document doc=builder.parse(is); 进入无限循环。

<强度 > EDIT:

@Michael Kay发现了问题, 但我在等待他的解决方案。

其他可能的解决办法之一是无视《多哈发展宣言》:

domFactory.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false)

谢谢你的帮助

Answer 1

我认为你的诊断是无穷无尽的循环是不正确的;它只是需要很长的时间,这是不一样的。

通常的原因是,该文件在W3C网站上提及了XHTML DTD, 采集者将去网络获取这个文件,而不是使用本地副本。大约一年前,W3C开始对这些共同的DTD提出“扼杀”要求,因为他们无法再处理流量问题。

通常的解决办法是使用解析者将请求改到本地副本。

友情链接