繁体   English   中英

检查Java字符串实例是否可能保留垃圾邮件数据的最简单方法

[英]Easiest Way to Check if a Java String Instance Might Hold Spam Data

我有一个迭代String实例的过程。 每次迭代都对String实例执行少量操作。 最后,String实例将保留。

现在,我想为每次迭代添加一个检查String实例是否为垃圾邮件。 我只需要验证String实例不是“成人材料”垃圾邮件。

有什么建议吗?

这是业界一直努力解决的一个非常棘手的问题。 最好的办法是尝试使用现有的解决方案(例如Classifier4J)和黑名单数据源来识别垃圾邮件。

您需要应用一些贝叶斯逻辑,其中包括安德鲁提到的Classifier4J在幕后所做的工作。

几年前Paul Graham撰写了一篇很好的文章-http: //www.paulgraham.com/spam.html

您可以尝试编写自己的分类器等,但是如果您保证有网络访问权限,那么仅使用Akismet和Java绑定怎么样? 查找垃圾邮件非常好。

您需要考虑网络连接和许可。

最简单的方法就是检查已知的垃圾邮件词。 这里的问题是,使用在不同上下文中表示不同含义的单词很容易得到误报。 您要么需要手动选择单词列表,仅包括没有正当理由的单词列表,要么选择更重量级的解决方案。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM