簡體   English   中英

y來自sklearn.datasets.make_classification

[英]y from sklearn.datasets.make_classification

在sklearn.datasets.make_classification中,如何計算類y? 比方說我運行他的:

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2,
                           n_classes=2, n_clusters_per_class=1, random_state=0)

用什么公式來得出X的y? 文檔在討論信息功能時會涉及到這一點:

信息功能的數量。 每個類由多個高斯簇組成,每個高斯簇位於維度n_informative的子空間中的超立方體的頂點周圍。 對於每個聚類,信息特征獨立於N(0,1)繪制,然后隨機線性組合以增加協方差。 然后將簇放置在超立方體的頂點上。

謝謝,

G

不計算y,只是X中的每一行都根據行所在的類獲得y中的關聯標簽(注意n_classes變量)。 如果flip_y大於零,則可能翻轉這些標簽中的一些,以在標簽中產生噪聲。

編輯:舉個例子

例如,假設您需要2個類,1個信息功能和4個數據點。 假設將隨機生成兩個類質心,它們恰好是1.0和3.0。 因此,圍繞第一個類(值1.0)生成的每個數據點都會獲得標簽y = 0,並且在第二個類(值3.0)周圍生成的每個數據點都會獲得標簽y = 1。 例如,第一類的X1可能恰好是1.2和0.7。 對於第二類,這兩點可能是2.8和3.1。 您現在有4個數據點,並且您知道它們是生成哪個類,因此您的最終數據將是:

Y X1
0 1.2
0 0.7
1 2.8
1 3.1

如您所見,沒有任何計算,您只需在隨機生成數據時分配類

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM