y來自sklearn.datasets.make_classification

Question

在sklearn.datasets.make_classification中，如何計算類y？ 比方說我運行他的：

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2,
                           n_classes=2, n_clusters_per_class=1, random_state=0)

用什么公式來得出X的y？ 文檔在討論信息功能時會涉及到這一點：

信息功能的數量。 每個類由多個高斯簇組成，每個高斯簇位於維度n_informative的子空間中的超立方體的頂點周圍。 對於每個聚類，信息特征獨立於N（0,1）繪制，然后隨機線性組合以增加協方差。 然后將簇放置在超立方體的頂點上。

謝謝，

G

Answer 1

不計算y，只是X中的每一行都根據行所在的類獲得y中的關聯標簽（注意n_classes變量）。 如果flip_y大於零，則可能翻轉這些標簽中的一些，以在標簽中產生噪聲。

編輯：舉個例子

例如，假設您需要2個類，1個信息功能和4個數據點。 假設將隨機生成兩個類質心，它們恰好是1.0和3.0。 因此，圍繞第一個類（值1.0）生成的每個數據點都會獲得標簽y = 0，並且在第二個類（值3.0）周圍生成的每個數據點都會獲得標簽y = 1。 例如，第一類的X1可能恰好是1.2和0.7。 對於第二類，這兩點可能是2.8和3.1。 您現在有4個數據點，並且您知道它們是生成哪個類，因此您的最終數據將是：

Y X1
0 1.2
0 0.7
1 2.8
1 3.1

如您所見，沒有任何計算，您只需在隨機生成數據時分配類

y來自sklearn.datasets.make_classification

問題描述

1 個解決方案

解決方案1
2 已采納 2013-08-19 14:09:23

y來自sklearn.datasets.make_classification

問題描述

1 個解決方案

解決方案1 2 已采納 2013-08-19 14:09:23

解決方案1
2 已采納 2013-08-19 14:09:23