簡體   English   中英

如何處理解析文本中的HTML實體-Python

[英]How to handle HTML entities in parsed text - Python

我有一個解析的文本,其中包含不同符號的HTML版本,例如引號或破折號。

這是一個字符串的樣子:

 Introduction &#8211 First page&#8218s content 

我想做到這一點:

 Introduction - First page's content 

是否有任何庫或通用解決方案可以更改任何字符串中的HTML實體? 還是我需要編寫一個將html替換為正確字符串的函數?

我已經檢查了這些答案 ,但是我更需要一些與包含html實體的簡單Python字符串一起使用的東西。

html模塊不需要字符串中的任何特殊內容。 它只適用於:

>>> import html
>>> html.unescape('Introduction &#8211 First page&#8218s content')
'Introduction – First page‚s content'

嘗試

print unicode(x)

要么

print x.encode('ascii')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM