[英]Convert HTML to Plain Text?
我可以使用Lumisoft的IMAP客戶端從Microsoft Exchange閱讀電子郵件。 我已經設置了交換服務器設置,可以將任何郵件轉換為純文本。 但是,當我閱讀信息時,它似乎仍然包含HTML / CSS。
從電子郵件正文中刪除HTML / CSS的最佳方法是什么? 還是我似乎錯過了交換服務器上的設置?
我通常采用以下方法之一...
使用正則表達式。 如果您必須提出一種適用於所有無效標記的解決方案,可能很難做到正確,但是我敢打賭其他人會在您之前做到這一點(提示:google或search SO)。
使用HTML解析器庫。 您可以在那里找到一種適用於任何流行編程語言的語言。 我建議使用HTML Agility Pack。
我不確定安裝程序的確切工作方式,是否可以運行腳本等。顯然,HTML解析器將是解析HTML的最佳方法。 例如,使用Hpricot(一個Ruby HTML解析庫),您可以puts doc.find_element('body').inner_text
,這將打印文檔的文本內容。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.