簡體   English   中英

檢查Java字符串實例是否可能保留垃圾郵件數據的最簡單方法

[英]Easiest Way to Check if a Java String Instance Might Hold Spam Data

我有一個迭代String實例的過程。 每次迭代都對String實例執行少量操作。 最后,String實例將保留。

現在,我想為每次迭代添加一個檢查String實例是否為垃圾郵件。 我只需要驗證String實例不是“成人材料”垃圾郵件。

有什么建議嗎?

這是業界一直努力解決的一個非常棘手的問題。 最好的辦法是嘗試使用現有的解決方案(例如Classifier4J)和黑名單數據源來識別垃圾郵件。

您需要應用一些貝葉斯邏輯,其中包括安德魯提到的Classifier4J在幕后所做的工作。

幾年前Paul Graham撰寫了一篇很好的文章-http: //www.paulgraham.com/spam.html

您可以嘗試編寫自己的分類器等,但是如果您保證有網絡訪問權限,那么僅使用Akismet和Java綁定怎么樣? 查找垃圾郵件非常好。

您需要考慮網絡連接和許可。

最簡單的方法就是檢查已知的垃圾郵件詞。 這里的問題是,使用在不同上下文中表示不同含義的單詞很容易得到誤報。 您要么需要手動選擇單詞列表,僅包括沒有正當理由的單詞列表,要么選擇更重量級的解決方案。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM