簡體   English   中英

將電子郵件解析為唯一的文本

[英]Parse email to unique text

我有一個mbox格式的大郵箱。 它是所有文章,因此標題信息與日期無關(日期除外)。

我想要的是拿走我的大* .mbx文件並生成文本文件,其中文件名是每封電子郵件的主題,所有標頭均已刪除。

我認為AWK可以使用正則表達式來做到這一點,但是這種事情不是我的專業領域(更多的是gui用戶)。

我希望可以將硬盤上的文件保留在更少的磁盤空間中,並最終可以使用Google桌面搜索建立索引。

任何幫助表示贊賞。

此處的關鍵是將記錄分隔符變量設置為空字符串。 這將以“段落”模式讀取文件。

awk -v RS="" '
    /^From / {
        # this $0 contains the email headers, grab the subject
        subject = "no subject"
        split($0, headers, /\n/)
        for (idx in headers)
            if (headers[idx] ~ /^Subject: /) {
                subject = headers[idx]
                sub(/^Subject: /, "", subject)
            }

        next
    }
    { print > subject}
' large.mbox

如果您的電子郵件主題相同,則郵件正文將合並為一個文件。

我希望不會因此而節省大量的磁盤使用量。 您將刪除標題,但增加所需的磁盤塊數。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM