[英]Is there a way to use VarVector to represent raw data in Ml.net K-means clustering
[英]ML.NET plotting K-means clustering results?
我正在一个无监督的集群场景中试验 ML.NET。 我的起始数据少于 30 条记录,在 TSV 文件中有 5 个特征,例如(当然标签将被忽略):
Label S1 S2 S3 S4 S5
alpha 0.274167987321712 0.483359746434231 0.0855784469096672 0.297939778129952 0.0332805071315372
beta 0.378208470054279 0.405409549510871 0.162317151706584 0.292342604802355 0.0551994848048085
...
我的起点是iris 教程,一个 K-means 聚类示例。 就我而言,我想要 3 个集群。 正如我刚刚学习的那样,一旦创建了模型,我想用它来将聚类数据添加到原始文件副本中的每条记录中,这样我就可以检查它们并绘制散点图。
我从这个训练代码开始(假设MyModel
是代表其模型的 POCO 类,具有S1
- S5
属性):
// load data
MLContext mlContext = new MLContext(seed: 0);
IDataView dataView = mlContext.Data.LoadFromTextFile<MyModel>
(dataPath, hasHeader: true, separatorChar: '\t');
// train model
const string featuresColumnName = "Features";
EstimatorChain<ClusteringPredictionTransformer<KMeansModelParameters>>
pipeline = mlContext.Transforms
.Concatenate(featuresColumnName, "S1", "S2", "S3", "S4", "S5")
.Append(mlContext.Clustering.Trainers.KMeans(featuresColumnName,
numberOfClusters: 3));
TransformerChain<ClusteringPredictionTransformer<KMeansModelParameters>>
model = pipeline.Fit(dataView);
// save model
using (FileStream fileStream = new FileStream(modelPath,
FileMode.Create, FileAccess.Write, FileShare.Write))
{
mlContext.Model.Save(model, dataView.Schema, fileStream);
}
然后,我加载保存的模型,从原始数据中读取每条记录,并获取其集群 ID。 这听起来有点令人费解,但我的学习意图是在使用它们之前检查结果。 结果应与质心坐标和点坐标一起保存在新文件中。
然而,这个 API 似乎不够透明,无法轻松访问质心; 我只找到了一个帖子,它很旧,它的代码不再编译。 我宁愿用它作为通过反射恢复数据的提示,但这是一个黑客。
另外,我不确定框架提供的数据的详细信息。 我可以看到每个质心都有 3 个向量(在示例代码中命名为cx
cy
cz
),每个向量有 5 个元素(我假设 5 个特征,按照它们的连接输入顺序,即从 S1 到 S5); 此外,每个预测都提供了 3 倍的距离( dx
dy
dz
)。 如果这些假设没问题,我可以为每个记录分配一个集群 ID,如下所示:
// for each record in the original data
foreach (MyModel record in csvReader.GetRecords<MyModel>())
{
// get its cluster ID
MyPrediction prediction = predictor.Predict(record);
// get the centroids just once, as of course they are the same
// for all the records referring their distances to them
if (cx == null)
{
// get centroids (via reflection...):
// https://github.com/dotnet/machinelearning/blob/master/docs/samples/Microsoft.ML.Samples/Dynamic/Trainers/Clustering/KMeansWithOptions.cs#L49
// https://social.msdn.microsoft.com/Forums/azure/en-US/c09171c0-d9c8-4426-83a9-36ed72a32fe7/kmeans-output-centroids-and-cluster-size?forum=MachineLearning
VBuffer<float>[] centroids = default;
var last = ((TransformerChain<ITransformer>)model)
.LastTransformer;
KMeansModelParameters kparams = (KMeansModelParameters)
last.GetType().GetProperty("Model").GetValue(last);
kparams.GetClusterCentroids(ref centroids, out int k);
cx = centroids[0].GetValues().ToArray();
cy = centroids[1].GetValues().ToArray();
cz = centroids[2].GetValues().ToArray();
}
float dx = prediction.Distances[0];
float dy = prediction.Distances[1];
float dz = prediction.Distances[2];
// ... calculate and save full details for the record ...
}
鉴于这种情况,我想我可以通过以下方式获得有关预训练模型中每个记录位置的所有详细信息:
dx
, dy
, dz
是距离。cx[0]
cy[0]
cy[0]
+ 距离(分别为dx
、 dy
和dz
)应该是 S1 点的位置; cx[1]
cy[1]
cz[1]
+ S2 位置的距离; 依此类推直到 S5( cx[4]
等)。在这种情况下,我可以在 3D 散点图中绘制这些数据。 然而,我对 ML.NET 完全陌生,因此我不确定这些假设,而且我很可能走错了路。 有人能指出我正确的方向吗?
我只是自己想通了这一点 - 进行了一些挖掘,所以对于那些有兴趣的人来说,这里有一些很好的信息:
现在可以通过以下方式从拟合模型中检索质心
VBuffer<float>[] centroids = default;
var modelParams = trainedModel.Model;
modelParams.GetClusterCentroids(ref centroids, out var k);
然而, 这里的文档令人讨厌地误导,因为他们声称是“坐标”的质心不是坐标,而是集群的特征列的平均值。
根据您的管道,如果像我一样有 700 个特征列和六个转换步骤,这可能会使它们变得毫无用处。 据我所知(如果我错了,请纠正我!!! )没有办法将质心转换为笛卡尔坐标来绘制图表。
但是我们仍然可以使用它们。
我最终做的是在我的数据上训练我的模型之后,我通过模型的预测函数运行我的所有数据。 这给了我预测的集群 id 和到所有其他集群质心的欧几里德距离。
使用预测的集群 id 和集群的质心平均值,您可以将数据点的特征映射到平均值上,以根据预测的集群获得数据行的“加权值”。 基本上,质心将包含它包含某个列 0.6533、另一列 0.211 和另一列 0 的信息。通过运行您的数据点特征,比如说 ( 5, 3, 1 ),通过质心你会得到 ( 3.2665, 0.633, 0)。 这是包含在预测集群中的数据行的表示。
然而,这仍然只是一行数据 - 为了使它们成为点图的笛卡尔坐标,我只需使用前半部分的总和作为 X 和后半部分的总和作为 Y。对于示例数据,坐标将是 ( 3.8995, 0 )
这是一个大致完整的代码示例:
VBuffer<float>[] centroids = default;
var modelParams = trainedModel.Model;
modelParams.GetClusterCentroids(ref centroids, out var k);
// extract from the VBuffer for ease
var cleanCentroids = Enumerable.Range(1, 5).ToDictionary(x => (uint)x, x =>
{
var values = centroids[x - 1].GetValues().ToArray();
return values;
});
var points = new Dictionary<uint, List<(double X, double Y)>>();
foreach (var dp in featuresDataset)
{
var prediction = predictor.Predict(dp);
var weightedCentroid = cleanCentroids[prediction.PredictedClusterId].Zip(dp.Features, (x, y) => x * y);
var point = (X: weightedCentroid.Take(weightedCentroid.Count() / 2).Sum(), Y: weightedCentroid.Skip(weightedCentroid.Count() / 2).Sum());
if (!points.ContainsKey(prediction.PredictedClusterId))
points[prediction.PredictedClusterId] = new List<(double X, double Y)>();
points[prediction.PredictedClusterId].Add(point);
}
其中featuresDataset
是一个对象数组,其中包含提供给 kmeans 训练器的特征列。 有关示例,请参阅上面的 microsoft docs 链接 - featuresDataset
在其示例中将是testData
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.