簡體   English   中英

確定pca分析中n_components變量的值

[英]Determine the value of n_components variable in pca analysis

祝你今天愉快。 請幫我。 我有一個規范化的文件。 該文件由21個數字列組成。

我將對以下文件進行pca analysis

pca = decomposition.PCA(n_components=21)
pca_output = pca.fit_transform(pca_matrix)
pca_inverse = pca.inverse_transform(pca_output)

據我了解,我分配給n_components變量的值等於列數。 但是我不明白的是如何確定n_components變量。

它是一個超參數,找到最佳值取決於要對數據執行的操作。 讓我描述3種可能的用途:

  • 可視化 :2或3可能是最明智的選擇:)
  • 壓縮 :這里的目標是在不丟失太多信息的情況下簡單地減少功能部件的數量。 您可以容納所有組件( n_components=None )。 然后檢查屬性explained_variance_ratio_並確定您願意刪除多少個。 或者,您可以放置n_components='mle'並讓數據為您決定。
  • 預處理 :這里維是某些管線的第一步(在回歸/分類之前)。 與壓縮相反,您想將轉換后的特征用作監督學習算法的輸入。 我建議通過GridSearchCV在PCA的n_components和預測模型的超參數上找到最佳的n_components。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM