簡體   English   中英

如何在兩列上使用 sklearn TfidfVectorizer fit_transform

[英]How to use sklearn TfidfVectorizer fit_transform on two columns

不確定這是否是在這兩列上應用 fit_transform 的正確方法。 目前正在編寫一個分類器來預測欺詐性職位發布。 我對“描述”和“要求”列感興趣。 我不知道是否有辦法在同一行中進行兩個轉換。

preprocessor = TfidfVectorizer(stop_words='english', strip_accents='unicode', norm='l2', use_idf=False,smooth_idf=False)
XX = preprocessor.fit_transform(X["description"])
XX = preprocessor.fit_transform(X["requirements"])

我認為您誤解了文檔。 如果你想在兩列上做 tfidf,那么你需要傳遞兩個變壓器。 像這樣的東西:

tfidf_1 = TfidfVectorizer(min_df=0)
tfidf_2 = TfidfVectorizer(min_df=0)
clmn = ColumnTransformer([("tfidf_1", tfidf_1, "a"), 
                          ("tfidf_2", tfidf_2, "b")
                         ],
                         remainder="passthrough")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM