簡體   English   中英

有沒有辦法從無監督數據集中獲取關系?

[英]Is there any way to get the relationship from the unsupervised dataset?

我有一些數據,數據集包括設備ID (int)、電話(int)、名稱(字符串)、設備ID等特征。但所有數據都沒有標簽。 我的任務是獲取一個人使用多個 ID 或多個設備的概率。 我不知道該怎么做,有人有想法嗎?

為了清楚起見,這里有一個例子。 數據集就像

  name   id    phone  device_id  
 Jason   123    12345   12341231     ......  
 James   1345   312312  312312312    ......  
 Jason   123    53523   23115124    ......

所以我們可以發現 Jason 有 2 個電話號碼,
如何使用機器學習方法或深度學習方法獲得概率?

一種可能的方法是計算用戶的相似度。

據我所知,用戶的設備相似性是您的最終目標。

首先,結合唯一標識用戶的名稱和 Id 字段。 生成,所有剩余的特征向量作為數組。

之后,您可以與所有用戶一起運行嵌套的 for 循環。 這會給你最接近的匹配,你可以設置一個閾值,或者你可以選擇 kNN 來做到這一點。

看看這個: Convert Nested dictionary to Pyspark Dataframe

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM