我应该对频率数据使用哪种聚类算法？

Question

我正在尝试分析如下的旅游数据：

@DATA
2013-1-01,01,1,0,1,3,3,329.2172000000005
2013-1-01,01,1,0,1,3,4,1399.7826299999915
2013-1-01,01,1,1,2,3,2,10.50964

最后一个属性是满足所有其他条件（酒店，特定城市，特定住宿天数...）的旅客人数

我正在尝试创建游客群以对数据进行细分并获得有意义的见解，并且我对机器学习还很陌生，所以在这里我有点挣扎。 经过一些研究，因为我不知道应该分割多少个群集，所以我看到一种不错的方法是使用自组织图来获取群集的数量，然后使用K-means或EV。 因此，我正在使用WEKA，并将SOM应用于数据，但看起来它形成了按所有属性（包括最后一个属性）分组的聚类，而不是将其用于加权。

我认为一种可能的解决方案是在frequency属性中为每个单位创建一行数据，但这会使文件太大。 有任何想法吗？

Answer 1

大多数实现不支持加权。 可以这样做，但是您将需要更改代码。

由于最后一列不是整数，因此不能重复行。

将每一行视为一个集群有什么问题？

但是您的其他属性似乎属于某种类别。 这样的数据往往很难聚类。 可以有1个差异，2个差异，都不同。 对于有意义的集群而言，这太粗糙了。

您也有一个时间戳记，所以您可能对随着时间的变化感兴趣吗？

我应该对频率数据使用哪种聚类算法？

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-04-21 06:42:13

我应该对频率数据使用哪种聚类算法？

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-04-21 06:42:13

解决方案1
0 已采纳 2018-04-21 06:42:13