使用 xml.etree.ElementTree 解析 XML 1.1 控制字符

Question

在 Python 中，我正在解析包含控制字符的 XML：

import xml.etree.ElementTree as ET

tree = ET.fromstring('<?xml version="1.1" encoding="UTF-8"?><field>foo &#11; bar</field>')
print(tree.text)

XML 1.1 允許使用控制字符，但解析失敗。 有什么我遺漏的，還是 xml.etree.ElementTree 不支持這樣的控制字符？

Answer 1

至少 linux 上的 ElementTree 解析器使用系統的 expat 解析器。 libexpat 維護者不打算支持XML 1.1。

lxml package，它提供了與ElementTree類似的API，使用libxml2解析XML。 libxml2 維護者也不打算實現XML 1.1（這個參考很老，但 libxml2主頁只參考 1.0 標准。

你需要找到

實際實現 XML 1.1 的解析器
解析器的 Python 綁定。

Answer 2

@snakecharmerb 是對的。 推薦你一個更寬容的圖書館，也許你會喜歡它。

from simplified_scrapy import SimplifiedDoc,req,utils
html = '<?xml version="1.1" encoding="UTF-8"?><field>foo &#11; bar</field>'
doc = SimplifiedDoc(html)
print(doc.field.text)

結果：

foo &#11; bar

這里有更多例子。 https://github.com/yiyedata/simplified-scrapy-demo/blob/master/doc_examples

使用 xml.etree.ElementTree 解析 XML 1.1 控制字符

問題描述

2 個解決方案

解決方案1
1 2020-04-15 13:43:03

解決方案2
0 2020-04-23 01:06:19

使用 xml.etree.ElementTree 解析 XML 1.1 控制字符

問題描述

2 個解決方案

解決方案1 1 2020-04-15 13:43:03

解決方案2 0 2020-04-23 01:06:19

解決方案1
1 2020-04-15 13:43:03

解決方案2
0 2020-04-23 01:06:19