簡體   English   中英

用於集合集合的層次聚類

[英]hierarchical clustering for collection of sets

我有一組像

 b1={a1,a2,a3,a4,a5}
 b2={a6,a7,a8,a9}
 b3={a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
 b4={a6,a7,a8,a12}
 b5={a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12}
 c1={d1,d2,d3}     
 c2={d1,d2,d3,d4}
 c3={d1,d2,d3,d4,d5}
 c4={d1,d2,d3,d4,d5,d6}

其中 b1 和 b2 是 b3 的子集,b3 本身是 b5 的子集,b4 是 b5 的另一個子集。 c1 是 c2 的子集,c2 本身是 c3 的子集,c3 本身是 c4 的子集。 假設所有集合中的所有元素都是字符串(a1...a12 是字符串,d1..d6 也是字符串)。 是否可以使用 Sklearn 在 Python 中進行層次聚類? 如果不是,那么只有最后一個子集的名稱可以,b1、b2、b4 和 c1 在這里。

據我所知 sklearn.cluster 使用非字符串格式。

我有一個想法 - 您使用pd.get_dummies將您的數據轉換為 integer 格式。 但是,由於您有集合,您需要檢查新數據集的正確性。 在此之后,您可以使用任何集群化,例如BIRCH

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM