[英]How to handle HTML entities in parsed text - Python
我有一個解析的文本,其中包含不同符號的HTML版本,例如引號或破折號。
這是一個字符串的樣子:
Introduction – First page‚s content
我想做到這一點:
Introduction - First page's content
是否有任何庫或通用解決方案可以更改任何字符串中的HTML實體? 還是我需要編寫一個將html替換為正確字符串的函數?
我已經檢查了這些答案 ,但是我更需要一些與包含html實體的簡單Python字符串一起使用的東西。
html
模塊不需要字符串中的任何特殊內容。 它只適用於:
>>> import html
>>> html.unescape('Introduction – First page‚s content')
'Introduction – First page‚s content'
嘗試
print unicode(x)
要么
print x.encode('ascii')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.