有沒有辦法從無監督數據集中獲取關系？

Question

我有一些數據，數據集包括設備ID （int）、電話（int）、名稱（字符串）、設備ID等特征。但所有數據都沒有標簽。 我的任務是獲取一個人使用多個 ID 或多個設備的概率。 我不知道該怎么做，有人有想法嗎？

為了清楚起見，這里有一個例子。 數據集就像

  name   id    phone  device_id  
 Jason   123    12345   12341231     ......  
 James   1345   312312  312312312    ......  
 Jason   123    53523   23115124    ......

所以我們可以發現 Jason 有 2 個電話號碼，
如何使用機器學習方法或深度學習方法獲得概率？

Answer 1

一種可能的方法是計算用戶的相似度。

據我所知，用戶的設備相似性是您的最終目標。

首先，結合唯一標識用戶的名稱和 Id 字段。 生成，所有剩余的特征向量作為數組。

之后，您可以與所有用戶一起運行嵌套的 for 循環。 這會給你最接近的匹配，你可以設置一個閾值，或者你可以選擇 kNN 來做到這一點。

看看這個： Convert Nested dictionary to Pyspark Dataframe

有沒有辦法從無監督數據集中獲取關系？

問題描述

1 個解決方案

解決方案1
0 2020-11-02 22:43:59

有沒有辦法從無監督數據集中獲取關系？

問題描述

1 個解決方案

解決方案1 0 2020-11-02 22:43:59

解決方案1
0 2020-11-02 22:43:59