[英]Extract HTML from xml
我想從 xml 文件中提取 html 頁面。 請問有什么想法嗎?
<?xml ....>
<first>
</first>
<second>
</second>
<xhtml>
<html>
.....some html code here
</html>
</xhtml>
我想從上面提取html頁面。
因為 xml 和 html 標記是相似的,任何 xml 解析器都可能有問題。 我建議您將 html 數據保存在 xml 文件中時,對其進行編碼以防止 xml 解析器出現問題。 然后,當您從 xml 中調用數據時,您只需要對其進行解碼即可使用。
<?xml ....?
<first></first>
<second></second>
<markup>
<html>
code here
</html>
</markup>
當您解碼標記部分時,它將如下所示
<html>
code here
</html>
你可能會發現這有一些用處:
http://www.w3schools.com/xml/xml_parser.asp
您可以使用 JavaScript 從 XML 中提取 HTML。 然后,您可以使用 JavaScript 在 HTML 頁面上創建一個元素,並將 HTML 轉儲到其中。 唯一的問題是您收到的 XML 數據似乎有一個 HTML 標記。
如果要將內容添加到現有頁面,則必須去除 html 和 body 標簽。
如果您使用python,提取會非常容易。
from simplified_scrapy.simplified_doc import SimplifiedDoc
html='''
<?xml >
<first>
</first>
<second>
</second>
<xhtml>
<html>
.....some html code here
</html>
</xhtml>
'''
doc = SimplifiedDoc(html)
html = doc.xhtml.html
print (html)
首先你需要使用pip安裝simplified_scrapy。
pip install simplified_scrapy
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.