如何處理解析文本中的HTML實體-Python

Question

我有一個解析的文本，其中包含不同符號的HTML版本，例如引號或破折號。

這是一個字符串的樣子：

 Introduction &#8211 First page&#8218s content

我想做到這一點：

 Introduction - First page's content

是否有任何庫或通用解決方案可以更改任何字符串中的HTML實體？ 還是我需要編寫一個將html替換為正確字符串的函數？

我已經檢查了這些答案，但是我更需要一些與包含html實體的簡單Python字符串一起使用的東西。

Answer 1

html模塊不需要字符串中的任何特殊內容。 它只適用於：

>>> import html
>>> html.unescape('Introduction &#8211 First page&#8218s content')
'Introduction – First page‚s content'

Answer 2

嘗試

print unicode(x)

要么

print x.encode('ascii')