[英]Is there any way to get the relationship from the unsupervised dataset?
我有一些数据,数据集包括设备ID (int)、电话(int)、名称(字符串)、设备ID等特征。但所有数据都没有标签。 我的任务是获取一个人使用多个 ID 或多个设备的概率。 我不知道该怎么做,有人有想法吗?
为了清楚起见,这里有一个例子。 数据集就像
name id phone device_id
Jason 123 12345 12341231 ......
James 1345 312312 312312312 ......
Jason 123 53523 23115124 ......
所以我们可以发现 Jason 有 2 个电话号码,
如何使用机器学习方法或深度学习方法获得概率?
一种可能的方法是计算用户的相似度。
据我所知,用户的设备相似性是您的最终目标。
首先,结合唯一标识用户的名称和 Id 字段。 生成,所有剩余的特征向量作为数组。
之后,您可以与所有用户一起运行嵌套的 for 循环。 这会给你最接近的匹配,你可以设置一个阈值,或者你可以选择 kNN 来做到这一点。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.