解析电子邮件字段

Question

我想从To:电子邮件字段解析电子邮件地址。

确实，当循环播放 mbox 中的电子邮件时：

mbox = mailbox.mbox('test.mbox')
for m in mbox:
  print m['To']

我们可以得到类似的东西：

info@test.org, Blahblah <blah@test.com>, <another@blah.org>, "Hey" <last@one.com>

应该被解析为：

[{email: "info@test.org", name: ""}, 
 {email: "blah@test.com", name: "Blahblah"},
 {email: "another@blah.org", name: ""},
 {email: "last@one.com", name: "Hey"}]

是否已经为此内置了一些东西（在mailbox或另一个模块中）或什么都没有？

我读了几次这个文档，但我没有找到相关的东西。

Answer 1

您可以email.utils.getaddresses()使用email.utils.getaddresses() ：

>>> getaddresses(['info@test.org, Blahblah <blah@test.com>, <another@blah.org>, "Hey" <last@one.com>'])
[('', 'info@test.org'), ('Blahblah', 'blah@test.com'), ('', 'another@blah.org'), ('Hey', 'last@one.com')]

（请注意，该函数需要一个列表，因此您必须将字符串括在[...] 。）

Answer 2

email.parser有你正在寻找的模块。 email.message仍然相关，因为解析器将使用此结构返回消息，因此您将从中获取标题数据。 但要真正读取文件， email.parser是要走的路。

Answer 3

正如@TheSpooniest 所指出的， email有一个解析器：

import email

s = 'info@test.org, Blahblah <blah@test.com>, <another@blah.org>, "Hey" <last@one.com>'

for em in s.split(','):
    print email.utils.parseaddr(em)

给出：

('', 'info@test.org')
('Blahblah', 'blah@test.com')
('', 'another@blah.org')
('Hey', 'last@one.com')

Answer 4

Python 提供了email.Header.decode_header()用于解码头部。 该函数解码每个原子并返回一个元组列表（文本，编码），您仍然需要解码并加入以获得全文。

对于地址，Python 提供email.utils.getaddresses()将地址拆分为元组列表（ display-name, address ）。 display-name 也需要解码，地址必须符合 RFC2822 语法。 函数getmailaddresses()完成所有工作。

这是一个可能有助于http://blog.magiksys.net/parsing-email-using-python-header的教程

解析电子邮件字段

问题描述

4 个解决方案

解决方案1
4 已采纳 2015-04-14 13:02:35

解决方案2
1 2015-04-14 12:59:00

解决方案3
1 2015-04-14 13:01:54

解决方案4
0 2015-04-14 13:02:22

解析电子邮件字段

问题描述

4 个解决方案

解决方案1 4 已采纳 2015-04-14 13:02:35

解决方案2 1 2015-04-14 12:59:00

解决方案3 1 2015-04-14 13:01:54

解决方案4 0 2015-04-14 13:02:22

解决方案1
4 已采纳 2015-04-14 13:02:35

解决方案2
1 2015-04-14 12:59:00

解决方案3
1 2015-04-14 13:01:54

解决方案4
0 2015-04-14 13:02:22