繁体   English   中英

从其所有先前的消息和元数据(Sendgrid Parse API / PHP)中提取电子邮件消息本身?

[英]Extract email message itself from all its prior messages and meta data (Sendgrid Parse API/PHP)?

我正在使用Sendgrid和他们的Parse API来发送/接收电子邮件。 Parse API允许一个人的网络应用程序接收电子邮件作为$ _POST,但问题是在$ _POST中我希望能够从其先前的消息和链接的元数据中提取消息本身。

为了向您展示我在下图中的含义,我只想捕捉文本“尝试从GMAIL从12373发送到12373”而不是它下面的所有垃圾。 如果那是不可能的,有没有人对如何解析电子邮件正文( $_POST['text'] )提出任何建议,以便我可以将邮件本身分开?

问题是,取决于电子邮件客户端(gmail,outlook等),我不清楚日期信息,在这种情况下:“2013年1月23日星期三......”,将允许关注消息本身。 如果所有电子邮件客户端都将日期放在消息下面,那么看起来我可以设计一个花哨的正则表达式来查找换行符后跟日期或其他内容。 思考?

**整个**消息正文包含先前的消息

你有几个选择:

1)插入分割电子邮件的令牌

你可以做类似的事情--- reply above this line ---然后删掉那个令牌下方的所有内容。

2)使用电子邮件回复解析库

github有一个非常好的,但它是红宝石。 虽然有一个php端口可能对你需要的东西很好:

完全工作的代码

<?php
  require_once 'application/third_party/EmailReplyParser-master/src/autoload.php';
  $email = new \EmailReplyParser\Email();
  $reply = $email->read($_POST['text']);            
  $message=$reply[0]->getContent();
  $message=preg_replace('~On(.*?)wrote:(.*?)$~si', '', $message); 
  //Last line is needed for some email clients, e.g., some university e-mails: foo@bar.edu but not Gmail or Hotmail, to get rid of "On Jan 23...wrote:" 
  //This failure to remove "On Jan 23...wrote:" is a known issue and is documented in their README

 ?>

根本无法保证从电子邮件消息中解析引用的消息线程,因此您将找不到适用于所有情况的正则表达式或任何其他代码。 没有标准来定义回复的格式,并且您已经观察到不同的邮件客户端使用不同的约定。 事实上,许多人将允许用户编辑引用的文本。 此外,用户可以粘贴不相关的邮件,有或没有标题,从而导致格式的混合和匹配。

如果您可以记录并保留发送和接收的所有消息的历史记录,那么您可以(通常但不总是)使用In-Reply-To标头(请参阅RFC-5322 )通过匹配它来查找上一条消息Message-ID标头,并在正文上执行diff并删除重复的文本运行。 很明显,有些电子邮件系统会这样做来改进他们的演示文稿,但我不知道任何可用的开源代码。

//剪切引用文本, https://regex101.com/r/xO8nI1/5

    $message = preg_replace('/(On\s.*<\n){0,1}(.*\n(\n){0,1}((^>+\s?.*$)+\n?)+)/mi', '', $message);

用英语以外的语言回复怎么样? 我们提出了添加标记的解决方案,但不是为每个电子邮件翻译它(基于用户的语言),而是将一些不可见的字符放入其中(准确地说是零宽度空间U+200B )。 基于“On ...”regexp它容易出错,它可以轻松地剪切一些电子邮件内容。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM