[英]Is there any way to get the relationship from the unsupervised dataset?
我有一些數據,數據集包括設備ID (int)、電話(int)、名稱(字符串)、設備ID等特征。但所有數據都沒有標簽。 我的任務是獲取一個人使用多個 ID 或多個設備的概率。 我不知道該怎么做,有人有想法嗎?
為了清楚起見,這里有一個例子。 數據集就像
name id phone device_id
Jason 123 12345 12341231 ......
James 1345 312312 312312312 ......
Jason 123 53523 23115124 ......
所以我們可以發現 Jason 有 2 個電話號碼,
如何使用機器學習方法或深度學習方法獲得概率?
一種可能的方法是計算用戶的相似度。
據我所知,用戶的設備相似性是您的最終目標。
首先,結合唯一標識用戶的名稱和 Id 字段。 生成,所有剩余的特征向量作為數組。
之后,您可以與所有用戶一起運行嵌套的 for 循環。 這會給你最接近的匹配,你可以設置一個閾值,或者你可以選擇 kNN 來做到這一點。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.