如何在Java中的xml属性值内获取html标记值？

Question

我有一个XML文件，其行如下所示：

<row Id="1" PostId="" ..... Body="<p>....</p><p>...<a>....</p><p>....</p>"....>

我想访问“身体”属性。 我使用了DOM解析器documentBuilder。

DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder = null;
Document doc = null;
try {
        dBuilder = dbFactory.newDocumentBuilder();
    } catch (ParserConfigurationException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
    try {
        doc = dBuilder.parse(this.xmlFile);
    } catch (SAXException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
    doc.getDocumentElement().normalize();
    NodeList nList = doc.getElementsByTagName("row");
    for(int i=0;i<nList.getLength();i++){
        Node n = nList.item(i);
        if(n.getNodeType() == Node.ELEMENT_NODE){
            NamedNodeMap nnmap = n.getAttributes();
            NodeList nnmapList = nnmap.getNamedItem("Body").getChildNodes()
            for(int k=0;k<nnmapList.getLength();k++){
                pr.write(k+": "+nnmapList.item(k).getTextContent()+ "\n");
            }
            pr.write("\n");
        }
    }

我的输出是这样的：

0: <p>... <a href="...">...</a> ...</p><p>...</p>

现在，我想在<p>和<a>标记之间添加纯文本。 对于<a> ，我不希望href，仅希望链接别名。 如何在Java中实现？

Answer 1

从XML文件的角度来看，HTML被认为是非结构化的（假设XML文件具有这样的观点）。 为了访问标签内容，您需要分别解析HTML字符串。 通常用于此目的的框架是jsoup 。

如何在Java中的xml属性值内获取html标记值？

问题描述

1 个解决方案

解决方案1
0 2016-09-21 09:06:49

如何在Java中的xml属性值内获取html标记值？

问题描述

1 个解决方案

解决方案1 0 2016-09-21 09:06:49

解决方案1
0 2016-09-21 09:06:49