簡體   English   中英

查找Tf-Idf使用scikit-learn從文檔集中僅選擇單詞的分數

[英]Finding Tf-Idf Scores of only selected words from set of documents using scikit-learn

我有一組文件(存儲為.txt文件)。 我還有一些選定單詞的python字典。 我想只為這些單詞分配tf-idf分數,而不是從文檔集中分配所有單詞。 如何使用scikit-learn或任何其他庫來完成?

我已經提到了這篇博文,但它提供了大量的完整詞匯。

您可以使用CountVectorizer執行此操作, CountVectorizer將文檔掃描為文本並轉換為術語文檔矩陣,並在矩陣上使用TfidfTrasnformer

這兩個步驟也可以與TfidfVectorizer一起組合完成。

它們位於sklearn.feature_extraction.text模塊[ link ]中。

兩個進程都將返回相同的稀疏矩陣表示,我假設您可能會通過TruncatedSVD進行SVD​​變換以獲得更小的密集矩陣。

你當然也可以自己做,這需要保留兩張地圖,每張文件一張,一張整體,你可以計算條款。 這就是他們在引擎蓋下運作的方式。

這個頁面有一些很好的例子。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM