[英]NLTK multiple feature sets in one classifier?
在NLTK中,通过使用朴素的贝叶斯分类器,我从示例中知道,使用“词袋”方法非常简单,可以查找单字组或双字母组或两者。 您可以使用两组完全不同的功能来做相同的事情吗?
例如,我可以使用字母组合和训练集的长度吗(我知道这里已经提到过一次)? 但是让我更感兴趣的是文档中出现的诸如双字母组和“双字母组”之类的东西或POS的组合吗?
这是否超出了基本NLTK分类器的功能?
谢谢亚历克斯
NLTK分类器可以与任何键值字典一起使用。 我使用{"word": True}
进行文本分类,但是您也可以使用{"contains(word)": 1}
来达到相同的效果。 您还可以将许多功能组合在一起,因此可以使用{"word": True, "something something": 1, "something else": "a"}
。 最重要的是您的功能是一致的,因此您始终具有相同的键和一组固定的可能值。 可以使用数字值,但是分类器并不聪明-将数字视为离散值,因此99和100与1和100一样。如果您希望以更智能的方式处理数字,那么我建议使用scikit-learn分类器。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.