[英]Parse email to unique text
我有一個mbox格式的大郵箱。 它是所有文章,因此標題信息與日期無關(日期除外)。
我想要的是拿走我的大* .mbx文件並生成文本文件,其中文件名是每封電子郵件的主題,所有標頭均已刪除。
我認為AWK可以使用正則表達式來做到這一點,但是這種事情不是我的專業領域(更多的是gui用戶)。
我希望可以將硬盤上的文件保留在更少的磁盤空間中,並最終可以使用Google桌面搜索建立索引。
任何幫助表示贊賞。
此處的關鍵是將記錄分隔符變量設置為空字符串。 這將以“段落”模式讀取文件。
awk -v RS="" '
/^From / {
# this $0 contains the email headers, grab the subject
subject = "no subject"
split($0, headers, /\n/)
for (idx in headers)
if (headers[idx] ~ /^Subject: /) {
subject = headers[idx]
sub(/^Subject: /, "", subject)
}
next
}
{ print > subject}
' large.mbox
如果您的電子郵件主題相同,則郵件正文將合並為一個文件。
我希望不會因此而節省大量的磁盤使用量。 您將刪除標題,但增加所需的磁盤塊數。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.