繁体   English   中英

稀疏数据上的离散和连续分类器

[英]Discrete and Continuous Classifier on Sparse Data

我试图对一个包含离散和连续特征的例子进行分类。 此外,该示例表示稀疏数据,因此即使系统可能已经训练了100个特征,该示例可能仅具有12个。

用于实现此目的的最佳分类器算法是什么? 我一直在关注贝叶斯,Maxent,决策树和KNN,但我不确定是否符合这个法案。 我发现最大的问题是大多数实现都不支持稀疏数据集以及离散和连续特性。 任何人都可以推荐符合这些标准的算法和实现(最好是在Python中)吗?

到目前为止我看过的图书馆包括:

  1. 橙色 (主要是学术性的。实现不是非常有效或实用。)
  2. NLTK (也是学术性的,虽然有很好的Maxent实现,但不能处理连续的功能。)
  3. Weka (仍在研究这个。似乎支持广泛的算法,但文档很差,所以不清楚每个实现支持什么。)

支持向量机 libsvm可以在Python中使用,而且速度非常快。

处理稀疏矢量输入,并且不介意某些特征是连续的,其他特征只是-1 / + 1。 (如果你有一个n路离散特征,那么标准的做法是将它扩展为n个二进制特征。)

Weka (Java)满足您的所有要求:

查看此Pentaho wiki,获取文档,指南,视频教程等链接列表......

scikit-learn ,Python机器学习模块支持稀疏数据的随机梯度下降支持向量机

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM