![](/img/trans.png)
[英]What's the best, easiest, free way to check in Java if a piece of text is spam?
[英]Easiest Way to Check if a Java String Instance Might Hold Spam Data
我有一个迭代String实例的过程。 每次迭代都对String实例执行少量操作。 最后,String实例将保留。
现在,我想为每次迭代添加一个检查String实例是否为垃圾邮件。 我只需要验证String实例不是“成人材料”垃圾邮件。
有什么建议吗?
这是业界一直努力解决的一个非常棘手的问题。 最好的办法是尝试使用现有的解决方案(例如Classifier4J)和黑名单数据源来识别垃圾邮件。
您需要应用一些贝叶斯逻辑,其中包括安德鲁提到的Classifier4J在幕后所做的工作。
几年前Paul Graham撰写了一篇很好的文章-http: //www.paulgraham.com/spam.html 。
您可以尝试编写自己的分类器等,但是如果您保证有网络访问权限,那么仅使用Akismet和Java绑定怎么样? 查找垃圾邮件非常好。
您需要考虑网络连接和许可。
最简单的方法就是检查已知的垃圾邮件词。 这里的问题是,使用在不同上下文中表示不同含义的单词很容易得到误报。 您要么需要手动选择单词列表,仅包括没有正当理由的单词列表,要么选择更重量级的解决方案。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.