簡體   English   中英

XML 解析錯誤,HTML 代碼無效(Elementtree)

[英]XML Parse Error with invalid HTML code (Elementtree)

當我解析下面的 xml 文件中的 xml 字符串時,我遇到了我認為無效的 HTML 字符代碼,解析器輸出以下錯誤消息。

錯誤消息是:ParseError:引用無效字符號

我刪除了描述正文的 rest 並留下了導致錯誤的部分。 如何讓 elementtree 忽略這些無效的 HTML 字符代碼或以某種方式處理它們?

代碼和 xml 摘錄如下:

XML: <dc:description> **(10&#410)** </dc:description>


import os
import html
import io
import sys
import xml.etree.ElementTree as ET

def process_file(file):

    parser=ET.XMLParser(encoding='utf-8')
    tree=ET.parse(file, parser=parser)


如何讓 elementtree 忽略這些無效的 HTML 字符代碼或以某種方式處理它們?

你不

您正在嘗試將 XML 工具應用於非 XML 數據。 拒絕合作是恰當的。

解決方案是先將您的數據修復為 XML,然后再嘗試將其處理為 XML。 手動執行此操作,或嘗試通過在字符/字符串級別處理文檔以編程方式執行此操作。

另請參閱如何解析無效(錯誤/格式不正確)XML?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM