有没有办法从无监督数据集中获取关系？

Question

我有一些数据，数据集包括设备ID （int）、电话（int）、名称（字符串）、设备ID等特征。但所有数据都没有标签。 我的任务是获取一个人使用多个 ID 或多个设备的概率。 我不知道该怎么做，有人有想法吗？

为了清楚起见，这里有一个例子。 数据集就像

  name   id    phone  device_id  
 Jason   123    12345   12341231     ......  
 James   1345   312312  312312312    ......  
 Jason   123    53523   23115124    ......

所以我们可以发现 Jason 有 2 个电话号码，
如何使用机器学习方法或深度学习方法获得概率？

Answer 1

一种可能的方法是计算用户的相似度。

据我所知，用户的设备相似性是您的最终目标。

首先，结合唯一标识用户的名称和 Id 字段。 生成，所有剩余的特征向量作为数组。

之后，您可以与所有用户一起运行嵌套的 for 循环。 这会给你最接近的匹配，你可以设置一个阈值，或者你可以选择 kNN 来做到这一点。

看看这个： Convert Nested dictionary to Pyspark Dataframe

有没有办法从无监督数据集中获取关系？

问题描述

1 个解决方案

解决方案1
0 2020-11-02 22:43:59

有没有办法从无监督数据集中获取关系？

问题描述

1 个解决方案

解决方案1 0 2020-11-02 22:43:59

解决方案1
0 2020-11-02 22:43:59