如何在Python中比較這兩個字符串？

Question

我有一個包含以下兩個字符串的文件：

25_%D1%80%D0%B0%D1%88%D3%99%D0%B0%D1%80%D0%B0
25_\xD1\x80\xD0\xB0\xD1\x88\xD3\x99\xD0\xB0\xD1\x80\xD0\xB0

它們都代表相同的URL路徑，因此應該相等。 我想對它們兩個都應用相同的“清理函數”，以獲得相同的字符串。

從文件中讀取這些字符串后，我得到：

>> s0
'25_%D1%80%D0%B0%D1%88%D3%99%D0%B0%D1%80%D0%B0'
>> s1
'2_\\xD1\\x80\\xD0\\xB0\\xD1\\x88\\xD3\\x99\\xD0\\xB0\\xD1\\x80\\xD0\\xB0'

（請注意s1轉義的反斜杠）。 如果我取消對s0引用， s0得到以下信息：

>> import urllib
>> t0 = urllib.unquote(s0)
'25_\xd1\x80\xd0\xb0\xd1\x88\xd3\x99\xd0\xb0\xd1\x80\xd0\xb0'
>> print t0
25_рашәара

很好 但是，我知道對s1要做的唯一事情如下：

>> t1 = s1.decode("unicode_escape")
u'2_\xd1\x80\xd0\xb0\xd1\x88\xd3\x99\xd0\xb0\xd1\x80\xd0\xb0'
>> print t1
2_ÑÐ°ÑÓÐ°Ñ

看起來壞了。 我的問題是：可以編寫什么樣的clean(s)函數將這兩個字符串歸一化，所以它們要么都是<type 'str'>要么都是<type 'unicode'>並且它們均打印相同（並且同樣比較）？

Answer 1

考慮：

>>> s0 = '25_%D1%80%D0%B0%D1%88%D3%99%D0%B0%D1%80%D0%B0'
>>> s1 = '25_\\xD1\\x80\\xD0\\xB0\\xD1\\x88\\xD3\\x99\\xD0\\xB0\\xD1\\x80\\xD0\\xB0'
>>> import urllib
>>> t0 = urllib.unquote(s0).decode('utf8')
>>> t1 = s1.decode('string_escape').decode('utf8')
>>> print t0
25_рашәара
>>> print t1
25_рашәара
>>> t0 == t1
True
>>>

如何在Python中比較這兩個字符串？

問題描述

1 個解決方案

解決方案1
2 已采納 2015-07-29 15:01:59

如何在Python中比較這兩個字符串？

問題描述

1 個解決方案

解決方案1 2 已采納 2015-07-29 15:01:59

解決方案1
2 已采納 2015-07-29 15:01:59