繁体   English   中英

我应该对频率数据使用哪种聚类算法?

[英]Which clustering algorithm should I use for frequency data?

我正在尝试分析如下的旅游数据:

@DATA
2013-1-01,01,1,0,1,3,3,329.2172000000005
2013-1-01,01,1,0,1,3,4,1399.7826299999915
2013-1-01,01,1,1,2,3,2,10.50964

最后一个属性是满足所有其他条件(酒店,特定城市,特定住宿天数...)的旅客人数

我正在尝试创建游客群以对数据进行细分并获得有意义的见解,并且我对机器学习还很陌生,所以在这里我有点挣扎。 经过一些研究,因为我不知道应该分割多少个群集,所以我看到一种不错的方法是使用自组织图来获取群集的数量,然后使用K-means或EV。 因此,我正在使用WEKA,并将SOM应用于数据,但看起来它形成了按所有属性(包括最后一个属性)分组的聚类,而不是将其用于加权。

我认为一种可能的解决方案是在frequency属性中为每个单位创建一行数据,但这会使文件太大。 有任何想法吗?

大多数实现不支持加权。 可以这样做,但是您将需要更改代码。

由于最后一列不是整数,因此不能重复行。

将每一行视为一个集群有什么问题?

但是您的其他属性似乎属于某种类别。 这样的数据往往很难聚类。 可以有1个差异,2个差异,都不同。 对于有意义的集群而言,这太粗糙了。

您也有一个时间戳记,所以您可能对随着时间的变化感兴趣吗?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM