[英]XML Parse Error with invalid HTML code (Elementtree)
當我解析下面的 xml 文件中的 xml 字符串時,我遇到了我認為無效的 HTML 字符代碼,解析器輸出以下錯誤消息。
錯誤消息是:ParseError:引用無效字符號
我刪除了描述正文的 rest 並留下了導致錯誤的部分。 如何讓 elementtree 忽略這些無效的 HTML 字符代碼或以某種方式處理它們?
代碼和 xml 摘錄如下:
XML: <dc:description> **(10ƚ)** </dc:description>
import os
import html
import io
import sys
import xml.etree.ElementTree as ET
def process_file(file):
parser=ET.XMLParser(encoding='utf-8')
tree=ET.parse(file, parser=parser)
如何讓 elementtree 忽略這些無效的 HTML 字符代碼或以某種方式處理它們?
你不
您正在嘗試將 XML 工具應用於非 XML 數據。 拒絕合作是恰當的。
解決方案是先將您的數據修復為 XML,然后再嘗試將其處理為 XML。 手動執行此操作,或嘗試通過在字符/字符串級別處理文檔以編程方式執行此操作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.