![](/img/trans.png)
[英]how to choose parameters in TfidfVectorizer in sklearn during unsupervised clustering
[英]How to choose parameters for svm in sklearn
我正在尝试使用sklearn中的SVM来解决分类问题。 我得到了一个高度稀疏的数据集,其中包含超过50K行和二进制输出。
问题是我不太清楚如何有效地选择参数,主要是内核,gamma和c。
例如,对于内核,我是否应该尝试所有内核,只保留给我最满意结果的内核,或者在选择内核之前,我们可以在第一时间看到与我们的数据相关的内容?
C和伽玛也一样。
谢谢 !
是的,这主要是一个实验问题 - 尤其是你几乎没有告诉我们你的数据集:可分性,线性,密度,连通性......所有影响分类算法的特征。
尝试使用线性和高斯内核作为初学者。 如果线性不能很好地工作而Gaussian有效,那么尝试其他内核。
找到最好的1或2个内核后, 再使用cost和gamma参数。 Gamma是一个“松弛”参数:它允许内核允许将一定比例的原始分类错误作为其他好处的权衡:间隙的宽度,分区函数的简单性等。
我还没有一个应用程序从改变成本中获得更多的微不足道的好处。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.