[英]parse XML 1.1 control characters with xml.etree.ElementTree
在 Python 中,我正在解析包含控制字符的 XML:
import xml.etree.ElementTree as ET
tree = ET.fromstring('<?xml version="1.1" encoding="UTF-8"?><field>foo  bar</field>')
print(tree.text)
XML 1.1 允許使用控制字符,但解析失敗。 有什么我遺漏的,還是 xml.etree.ElementTree 不支持這樣的控制字符?
@snakecharmerb 是對的。 推薦你一個更寬容的圖書館,也許你會喜歡它。
from simplified_scrapy import SimplifiedDoc,req,utils
html = '<?xml version="1.1" encoding="UTF-8"?><field>foo  bar</field>'
doc = SimplifiedDoc(html)
print(doc.field.text)
結果:
foo  bar
這里有更多例子。 https://github.com/yiyedata/simplified-scrapy-demo/blob/master/doc_examples
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.