繁体   English   中英

Mahout中的朴素贝叶斯分类器对网站进行分类的适用性

[英]Suitability of Naive Bayes classifier in Mahout to classifying websites

我目前正在从事一个需要对网站进行数据库分类的项目(例如cnn.com =新闻)。 我们只需要广泛的分类-我们不需要将每个URL单独分类。 我们正在与此类数据库的通常供应商进行交谈,但是我们索回的大多数报价都非常昂贵,而且常常会提出令人讨厌的要求,例如必须使用其SDK来查询数据库。

同时,我也一直在探索自己建立这样一个数据库的可能性。 我意识到这不是5分钟的工作,因此我正在做大量研究。

通过阅读有关该主题的各种论文,似乎朴素贝叶斯分类器通常是执行此操作的标准方法。 但是,许多论文建议进行增强以提高其在Web分类中的准确性-通常是通过使用其他上下文信息,例如超链接,标头标签,多词短语,URL,词频等。

我已经针对20个新闻组测试数据集对Mahout的Naive Bayes分类器进行了实验,我可以看到它对网站分类的适用性,但是我担心它在用例中的准确性。

有人知道在Mahout中扩展Bayes分类器以考虑其他属性的可行性吗? 任何关于从哪里开始的指针将不胜感激。

另外,如果我完全把错误的树种成树,请告诉我!

您可以根据需要随意控制输入。 最后,输入只是一个特征向量。 特征向量的特征可以是单词,也可以是双字母组-但也可以是您想要的任何特征。 因此,是的,您可以根据需要修改输入来注入新功能。

如何最好地编织这些功能完全是另一主题-没有一种将它们转换为数字的最佳方法。 Mahout in Action涵盖了相当不错的FWIW。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM