[英]How do you deal with multiple Python classes in the same module depending on each other?
[英]In python how do you deal with other encodings in domain names
我正在尝试从文件加载的电子邮件的Message-ID字段中解析域名,并将其与from字段的域进行比较,以查看其匹配程度。 然后,我使用nltk.edit_distance()
比较距离。
我正在使用
re.search('@[\\[\\]\\w+\\.]+',mail['Message-ID']).group()[1:]
但一封垃圾邮件包含以下内容
mail2['Message-ID']
'<2011315123.04C6DACE618A7C2763810@\x82\xb1\x82\xea\x82\xa9\x82\xe7\x8c\xa9\x82\xa6\x82\xe9\x82\xbe\x82\xeb\x82\xa4>'
因此,当我尝试匹配时,它不会在group()
返回匹配项
我可以在Shift_JIS中对其进行解码,但是从那里不知道该如何处理<2011315123.04C6DACE618A7C2763810@これから見えるだろう>
我不想尝试检查所有可能的字符编码。
我应该怎么做的任何想法?
您可以尝试chardet项目 ,该项目使用一种算法来猜测字符编码:
import chardet
text = '<2011315123.04C6DACE618A7C2763810@\x82\xb1\x82\xea\x82\xa9\x82\xe7' + \
'\x8c\xa9\x82\xa6\x82\xe9\x82\xbe\x82\xeb\x82\xa4>'
cset = chardet.detect(text)
print cset
encoding = cset['encoding']
print encoding, text.decode(encoding)
输出:
{'confidence': 1, 'encoding': 'SHIFT_JIS'}
SHIFT_JIS <2011315123.04C6DACE618A7C2763810@これから見えるだろう>
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.