[英]Machine Learning - How to extract features from pipeline
我對這個領域完全陌生,目前我被困住了。 這是我想要的和我所做的:
我有一個 Dataframe ,它在訓練和測試數據集中是唯一的。 訓練特征是 twitter 消息,標簽被分配類別。 我設置了一個標記器(稱為clean_text
),它只保留相關的單詞並將消息剝離到核心信息。 model 包括網格搜索,如下所示:
def build_model():
pipeline = Pipeline([
('vectorizer', CountVectorizer(tokenizer=clean_text)),
('tfidf', TfidfTransformer()),
('clf', MultiOutputClassifier(
RandomForestClassifier()
))
])
# parameters to grid search
parameters = { 'vectorizer__max_features' : [50],#, 72, 144, 288, 576, 1152],
'clf__estimator__n_estimators' : [100]}#, 100] }
# initiating GridSearchCV method
model = GridSearchCV(pipeline, param_grid=parameters, cv = 5)
return model
配件工作正常,以及評估。 不是我不確定,如果 model 設置正確,並且功能是否是消息中最常用的標記(在上述情況下為 50),或者是否存在錯誤。
現在的問題是:有沒有辦法打印這 50 個特征並查看它們是否正確?
最好的菲利克斯
沒有樣本信息,這是最好的猜測。 請檢查以下是否有效。 如果您有樣本數據,我們可以為您提供更好的幫助。
print(vectorizer.vocabulary_)
這應該可以工作,或者分享樣品 dataframe
model.estimator.named_steps['vectorizer'].get_feature_names()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.