Java XML解析器块（非常不寻常和奇怪！）

Question

我有一个很奇怪的情况：

我尝试使用默认的Java XML解析器解析多个符合XHTML的网站。 解析期间（而不是下载期间）测试块。

这可能是错误，还是解析器尝试在解析过程中下载其他参考资源（这将是“不错的”反功能）？

使用简单的数据，它就可以工作。 （TEST1）
对于复杂的数据，它会阻塞。 （TEST2）
（我尝试过en.wikipedia.org和validator.w3.org ）

发生阻塞时，CPU处于空闲状态。

用JDK6和JDK7测试，结果相同。

请查看测试用例，源可以复制+粘贴+运行。

资源

import java.io.*;
import java.net.*;
import java.nio.charset.*;
import javax.xml.parsers.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.*;
import javax.xml.transform.stream.*;
import org.w3c.dom.*;

public class _XmlParsingBlocks {

  private static Document parseXml(String data)
      throws Exception {
    Transformer t = TransformerFactory.newInstance().newTransformer();
    DocumentBuilder b = DocumentBuilderFactory.newInstance().newDocumentBuilder();
    DOMResult out = new DOMResult(b.newDocument());
    t.transform(new StreamSource(new StringReader(data)), out);
    return (Document) out.getNode();
  }

  private static byte[] streamToByteArray(InputStream is)
      throws IOException {
    ByteArrayOutputStream baos = new ByteArrayOutputStream();

    for (;;) {
      byte[] buffer = new byte[256];
      int count = is.read(buffer);
      if (count == -1) {
        is.close();
        break;
      }
      baos.write(buffer, 0, count);
    }

    return baos.toByteArray();
  }

  private static void test(byte[] data)
      throws Exception {
    String asString = new String(data, Charset.forName("UTF-8"));

    System.out.println("===== PARSING STARTED =====");
    Document doc = parseXml(asString);
    System.out.println("===== PARSING ENDED =====");
  }

  public static void main(String[] args)
      throws Exception {
    {
      System.out.println("********** TEST 1");
      test("<html>test</html>".getBytes("UTF-8"));
    }

    {
      System.out.println("********** TEST 2");
      URL url = new URL("http://validator.w3.org/");
      URLConnection connection = url.openConnection();
      InputStream is = connection.getInputStream();
      byte[] data = streamToByteArray(is);
      System.out.println("===== DOWNLOAD FINISHED =====");

      test(data);
    }
  }

}

输出量

********** TEST 1
===== PARSING STARTED =====
===== PARSING ENDED =====
********** TEST 2
===== DOWNLOAD FINISHED =====
===== PARSING STARTED =====

[here it blocks]

Answer 1

查看您下载的页面，它包含更多的http: URL。

这是开始：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">

我可以想象XML解析器试图在此处下载引用的DTD，以便能够验证XML内容。

尝试将序言添加到您的简单文档中，或尝试使序言远离复杂的文档，以查看这是否有所更改。

将解析器切换为非验证，然后查看是否有帮助。 （或者，有一些选项可以配置解析器的行为，例如setURIResolver看起来不错。）

Answer 2

在过去的几个月中，W3C开始阻止对常见DTD（例如XHTML DTD）的请求-它们无法应付所产生的流量。 如果您不使用缓存DTD的代理服务器，则需要使用EntityResolver或目录将引用重定向到本地副本。

Answer 3

解决方案：为自定义EntityResolver预取（或更好：使用脱机存储）DTD。

如果期望不使用外部XML实体（例如  ），则可以返回一个空的InputSource ，请参阅内部枚举。 否则，可以使用DTD URI -> bytearray准备映射来阻止在线下载DTD。

类

import java.io.*;
import java.util.*;
import javax.annotation.*;
import org.xml.sax.*;

public final class PrefetchedEntityResolver
    implements EntityResolver {

  /**
  * NOTE: {@see #RETURN_NULL} seems to cause default behavior
  * (which is: downloading the DTD);
  * use {@see #RETURN_EMPTY_DATA} to ensure "offline" behavior
  * (which could lead to entity parsing errors).
  */
  public static enum NoMatchBehavior {

    THROW_EXCEPTION, RETURN_NULL, RETURN_EMPTY_DATA;
  }

  private final SortedMap<String, byte[]> prefetched;
  private final NoMatchBehavior noMatchBehavior;

  public PrefetchedEntityResolver(NoMatchBehavior noMatchBehavior,
      @Nullable SortedMap<String, byte[]> prefetched) {
    this.noMatchBehavior = noMatchBehavior;
    this.prefetched = new TreeMap<>(prefetched == null
        ? Collections.<String, byte[]>emptyMap() : prefetched);
  }

  @Override
  public InputSource resolveEntity(String name, String uri)
      throws SAXException, IOException {
    byte[] data = prefetched.get(uri);
    if (data == null) {
      switch (noMatchBehavior) {
      case RETURN_NULL:
        return null;
      case RETURN_EMPTY_DATA:
        return new InputSource(new ByteArrayInputStream(new byte[]{}));
      case THROW_EXCEPTION:
        throw new SAXException("no prefetched DTD found for: " + uri);
      default:
        throw new Error("unsupported: " + noMatchBehavior.toString());
      }
    }

    return new InputSource(new ByteArrayInputStream(data));
  }

}

用法

public static Document parseXml(byte[] data)
    throws Exception {
  DocumentBuilderFactory df = DocumentBuilderFactory.newInstance();
  df.setValidating(false);
  df.setXIncludeAware(false);
  df.setCoalescing(false);
  df.setExpandEntityReferences(false);

  DocumentBuilder b = df.newDocumentBuilder();
  b.setEntityResolver(new PrefetchedEntityResolver(
      PrefetchedEntityResolver.NoMatchBehavior.RETURN_EMPTY_DATA,
      /* pass some prepared SortedMap<String, byte[]> */));
  ByteArrayInputStream bais = new ByteArrayInputStream(data);
  return b.parse(bais);
}

Answer 4

也许您的“计数== -1”条件需要变为“计数<= 0”？

Java XML解析器块（非常不寻常和奇怪！）

问题描述

资源

输出量

4 个解决方案

解决方案1
2 2011-04-02 01:07:03

解决方案2
2 已采纳 2011-04-02 21:44:32

解决方案3
1 2011-04-02 11:39:25

类

用法

解决方案4
0 2011-04-02 00:58:34

Java XML解析器块（非常不寻常和奇怪！）

问题描述

资源

输出量

4 个解决方案

解决方案1 2 2011-04-02 01:07:03

解决方案2 2 已采纳 2011-04-02 21:44:32

解决方案3 1 2011-04-02 11:39:25

类

用法

解决方案4 0 2011-04-02 00:58:34

解决方案1
2 2011-04-02 01:07:03

解决方案2
2 已采纳 2011-04-02 21:44:32

解决方案3
1 2011-04-02 11:39:25

解决方案4
0 2011-04-02 00:58:34