如何检测和更正 python 中电子邮件标题中的 Content-Type 字符集？

Question

在 python 中以编程方式检测和更正电子邮件标头中的Content-Type charset的正确方法是什么？

我有 1000 封电子邮件被提取到.eml （基本上是纯文本）文件，有些是经过编码的shift_jis ，但是电子邮件标题中的字符集没有提到这一点，因此它们无法在任何电子邮件程序中正确显示。 将charset手动添加到Content-Type标头可纠正此问题。

曾是：

Content-Type: text/plain; format=flowed

需要是：

Content-Type: text/plain; charset="shift_jis"; format=flowed

在python中保留电子邮件正文和标题的其他部分的正确方法是什么？

另外，有没有办法检测哪种编码，并且只纠正那些具有该编码的编码？ 我不能盲目地全部转换，因为有些是iso_2022_jp ，而那些已经正确显示。

Answer 1

使用get_charset，您可以获得消息的预先存在的字符集。 这是一个示例：

from email import message_from_file
msg = message_from_file(open('path.eml'))
msg.get_charsets()
[None, 'gb2312', None]

使用这种方法，您可以遍历所有消息，并使用 set_charset() 将其设置为没有它的那些为正确的。