簡體   English   中英

機器學習 - 如何從管道中提取特征

[英]Machine Learning - How to extract features from pipeline

我對這個領域完全陌生,目前我被困住了。 這是我想要的和我所做的:

我有一個 Dataframe ,它在訓練和測試數據集中是唯一的。 訓練特征是 twitter 消息,標簽被分配類別。 我設置了一個標記器(稱為clean_text ),它只保留相關的單詞並將消息剝離到核心信息。 model 包括網格搜索,如下所示:

def build_model():
   pipeline = Pipeline([
        ('vectorizer', CountVectorizer(tokenizer=clean_text)),
        ('tfidf', TfidfTransformer()),
        ('clf', MultiOutputClassifier(
                RandomForestClassifier()
                ))      
        ])

    # parameters to grid search
    parameters = { 'vectorizer__max_features' : [50],#, 72, 144, 288, 576, 1152],
            'clf__estimator__n_estimators' : [100]}#, 100] }

    # initiating GridSearchCV method
    model = GridSearchCV(pipeline, param_grid=parameters, cv = 5)

    return model

配件工作正常,以及評估。 不是我不確定,如果 model 設置正確,並且功能是否是消息中最常用的標記(在上述情況下為 50),或者是否存在錯誤。

現在的問題是:有沒有辦法打印這 50 個特征並查看它們是否正確?

最好的菲利克斯

沒有樣本信息,這是最好的猜測。 請檢查以下是否有效。 如果您有樣本數據,我們可以為您提供更好的幫助。

print(vectorizer.vocabulary_)

這應該可以工作,或者分享樣品 dataframe

model.estimator.named_steps['vectorizer'].get_feature_names()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM