構建org.w3c.dom.Document時剝離的HTML字符實體

Question

我有一個Java XML實用程序類。 buildDocument()方法接受XML字符串並返回org.w3c.dom.Document 。 我傳遞給它的特定XML是一個xhtml 1.1文檔。

問題是如果有HTML命名實體，如，

<p>Preserve dagger &dagger;</p>

輸出是，

<p>Preserve dagger </p>

它確實保留了< ， > ， & ， " 。

這是創建Document的類。

package com.example;

import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.StringWriter;
import java.nio.charset.StandardCharsets;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.w3c.dom.Document;
import org.xml.sax.SAXException;

public final class XMLUtils {

    private XMLUtils() {
    }

    public static Document buildDocument(String xml) throws ParserConfigurationException, SAXException, IOException {

        DocumentBuilderFactory domFactory = DocumentBuilderFactory
            .newInstance();
        domFactory.setNamespaceAware(true);

        domFactory.setFeature("http://xml.org/sax/features/validation", false);
        domFactory.setFeature(
            "http://apache.org/xml/features/nonvalidating/load-dtd-grammar", false);
        domFactory.setFeature(
            "http://apache.org/xml/features/nonvalidating/load-external-dtd", false);
        domFactory.setCoalescing(false);
        DocumentBuilder builder = domFactory.newDocumentBuilder();

        Document doc = builder.parse(new ByteArrayInputStream(
                xml.getBytes(StandardCharsets.UTF_8)));

        try {
            DOMSource domSource = new DOMSource(doc);
            StringWriter writer = new StringWriter();
            StreamResult result = new StreamResult(writer);
            TransformerFactory tf = TransformerFactory.newInstance();
            Transformer transformer = tf.newTransformer();
            transformer.transform(domSource, result);
            System.out.println("XML OUT: \n" + writer.toString());
        } catch (Exception ex) {

        }

        return doc;
    }
}

我認為這些是相關的依賴。

<dependency>
    <groupId>net.sf.saxon</groupId>
    <artifactId>Saxon-HE</artifactId>
    <version>9.5.1-6</version>
</dependency>
<dependency>
    <groupId>xerces</groupId>
    <artifactId>xercesImpl</artifactId>
    <version>2.11.0</version>
    <type>jar</type>
</dependency>
<dependency>
    <groupId>xml-resolver</groupId>
    <artifactId>xml-resolver</artifactId>
    <version>1.2</version>
    <type>jar</type>
</dependency>

關於如何保護這些實體的任何想法？ 謝謝，/ w

Answer 1

我花了一些時間才找到解決這個問題的方法，顯然很難找到合適的關鍵字...因為我在找到最佳答案之前找到了這個關鍵字，我認為值得在這里鏈接它，即使它是在無論如何StackOverflow。 你去：保留數字字符實體字符，如`＆＃10; ＆＃13;`在Java中解析XML時

這不太令人滿意，但至少它解釋了為什么沒有更好的解決方案。

構建org.w3c.dom.Document時剝離的HTML字符實體

問題描述

1 個解決方案

解決方案1
0 2015-06-19 09:49:21

構建org.w3c.dom.Document時剝離的HTML字符實體

問題描述

1 個解決方案

解決方案1 0 2015-06-19 09:49:21

解決方案1
0 2015-06-19 09:49:21