將漢字轉換為XML / HTML樣式的數字實體以及Unicode UTF-8？

Question

我將英文單詞和漢字混合使用，我想將文本轉換為英文單詞和漢字的XML / HTML樣式數字實體的混合。

例如，以下英語單詞，數字和漢字的混合

Title: 目錄.doc
Level: 1
PageNumber: 1
Begin
Title: 1 C語言概述
Level: 1
PageNumber: 13
BeginTitle: 1.1 Ｃ語言的發展過程
Level: 2
PageNumber: 13
Begin
Title: 1.2 當代最優秀的程序設計語言

將變為以下內容，將中文字符替換為其XML / HTML樣式的數字實體：

Title: &#30446;&#24405;.doc
Level: 1
PageNumber: 1
Begin
Title: 1 C&#35821;&#35328;&#27010;&#36848;
Level: 1
PageNumber: 13
Begin
Title: 1.1 &#65315;&#35821;&#35328;&#30340;&#21457;&#23637;&#36807;&#31243;
Level: 2
PageNumber: 13
Begin
Title: 1.2 &#24403;&#20195;&#26368;&#20248;&#31168;&#30340;&#31243;&#24207;&#35774;&#35745;&#35821;&#35328;

我想知道是否可以用Python編寫程序嗎？

還可以編程將漢字轉換為Unicode UTF-8代碼嗎？

提前致謝！

Answer 1

如果s是一個Unicode字符串，則s.encode('ascii', 'xmlcharrefreplace')

在python 2中，您可以嘗試s.decode('utf_8').encode('ascii', 'xmlcharrefreplace')

這適用於python 3。

s = '''
Title: 目錄.doc
Level: 1
PageNumber: 1
Begin
Title: 1 C語言概述
Level: 1
PageNumber: 13
BeginTitle: 1.1 Ｃ語言的發展過程
Level: 2
PageNumber: 13
Begin
Title: 1.2 當代最優秀的程序設計語言
'''

print(s.encode('ascii', 'xmlcharrefreplace').decode('utf_8'))

或者，您可以編寫自己的代碼

res = []

for b in s:
    o = ord(b)
    if o > 255:
        res.append('&#{};'.format(o))
    else:
        res.append(b)

res_string = ''.join(res)

print(res_string)

兩個輸出：

Title: &#30446;&#24405;.doc
Level: 1
PageNumber: 1
Begin
Title: 1 C&#35821;&#35328;&#27010;&#36848;
Level: 1
PageNumber: 13
BeginTitle: 1.1 &#65315;&#35821;&#35328;&#30340;&#21457;&#23637;&#36807;&#31243;
Level: 2
PageNumber: 13
Begin
Title: 1.2 &#24403;&#20195;&#26368;&#20248;&#31168;&#30340;&#31243;&#24207;&#35774;&#35745;&#35821;&#35328;

您可以使用ord()函數獲取unicode代碼

c = '錄'
code = ord(c)
print(code, hex(code))

輸出：

24405 0x5f55

將漢字轉換為XML / HTML樣式的數字實體以及Unicode UTF-8？

問題描述

1 個解決方案

解決方案1
0 2014-07-09 06:54:08

將漢字轉換為XML / HTML樣式的數字實體以及Unicode UTF-8？

問題描述

1 個解決方案

解決方案1 0 2014-07-09 06:54:08

解決方案1
0 2014-07-09 06:54:08