從 xml 中提取 HTML

Question

我想從 xml 文件中提取 html 頁面。 請問有什么想法嗎？

 <?xml ....>
      <first>
      </first>

         <second>
         </second>
      <xhtml>
          <html>
              .....some html code here
          </html>
      </xhtml>

我想從上面提取html頁面。

Answer 1

因為 xml 和 html 標記是相似的，任何 xml 解析器都可能有問題。 我建議您將 html 數據保存在 xml 文件中時，對其進行編碼以防止 xml 解析器出現問題。 然后，當您從 xml 中調用數據時，您只需要對其進行解碼即可使用。

<?xml ....?
<first></first>
<second></second>
<markup>
    &lt;html&gt;
        code here
    &lt;/html&gt;
</markup>

當您解碼標記部分時，它將如下所示

<html>
    code here
</html>

Answer 2

你可能會發現這有一些用處：

http://www.w3schools.com/xml/xml_parser.asp

您可以使用 JavaScript 從 XML 中提取 HTML。 然后，您可以使用 JavaScript 在 HTML 頁面上創建一個元素，並將 HTML 轉儲到其中。 唯一的問題是您收到的 XML 數據似乎有一個 HTML 標記。

如果要將內容添加到現有頁面，則必須去除 html 和 body 標簽。

Answer 3

如果您使用python，提取會非常容易。

from simplified_scrapy.simplified_doc import SimplifiedDoc 
html='''
 <?xml >
    <first>
    </first>
        <second>
        </second>
    <xhtml>
        <html>
            .....some html code here
        </html>
    </xhtml>
'''
doc = SimplifiedDoc(html)
html = doc.xhtml.html
print (html)

首先你需要使用pip安裝simplified_scrapy。

pip install simplified_scrapy

從 xml 中提取 HTML

問題描述

3 個解決方案

解決方案1
0 2013-04-15 12:04:42

解決方案2
0 2013-04-15 12:22:48

解決方案3
0 2019-12-12 01:00:54

從 xml 中提取 HTML

問題描述

3 個解決方案

解決方案1 0 2013-04-15 12:04:42

解決方案2 0 2013-04-15 12:22:48

解決方案3 0 2019-12-12 01:00:54

解決方案1
0 2013-04-15 12:04:42

解決方案2
0 2013-04-15 12:22:48

解決方案3
0 2019-12-12 01:00:54