機器學習 - 如何從管道中提取特征

Question

我對這個領域完全陌生，目前我被困住了。 這是我想要的和我所做的：

我有一個 Dataframe ，它在訓練和測試數據集中是唯一的。 訓練特征是 twitter 消息，標簽被分配類別。 我設置了一個標記器（稱為clean_text ），它只保留相關的單詞並將消息剝離到核心信息。 model 包括網格搜索，如下所示：

def build_model():
   pipeline = Pipeline([
        ('vectorizer', CountVectorizer(tokenizer=clean_text)),
        ('tfidf', TfidfTransformer()),
        ('clf', MultiOutputClassifier(
                RandomForestClassifier()
                ))      
        ])

    # parameters to grid search
    parameters = { 'vectorizer__max_features' : [50],#, 72, 144, 288, 576, 1152],
            'clf__estimator__n_estimators' : [100]}#, 100] }

    # initiating GridSearchCV method
    model = GridSearchCV(pipeline, param_grid=parameters, cv = 5)

    return model

配件工作正常，以及評估。 不是我不確定，如果 model 設置正確，並且功能是否是消息中最常用的標記（在上述情況下為 50），或者是否存在錯誤。

現在的問題是：有沒有辦法打印這 50 個特征並查看它們是否正確？

最好的菲利克斯

Answer 1

沒有樣本信息，這是最好的猜測。 請檢查以下是否有效。 如果您有樣本數據，我們可以為您提供更好的幫助。

print(vectorizer.vocabulary_)

Answer 2

這應該可以工作，或者分享樣品 dataframe

model.estimator.named_steps['vectorizer'].get_feature_names()

機器學習 - 如何從管道中提取特征

問題描述

2 個解決方案

解決方案1
0 2020-04-13 02:01:13

解決方案2
0 2020-04-13 06:10:28

機器學習 - 如何從管道中提取特征

問題描述

2 個解決方案

解決方案1 0 2020-04-13 02:01:13

解決方案2 0 2020-04-13 06:10:28

解決方案1
0 2020-04-13 02:01:13

解決方案2
0 2020-04-13 06:10:28