簡體 English 中英

如何處理tf-idf中非常罕見的術語？

[英]How to deal with very uncommon terms in tf-idf?

原文 2012-10-18 07:54:43 2 1 feature-extraction/ relevance/ tf-idf/ noise-reduction/ oov

我正在實施一個天真的“關鍵字提取算法”。 我是自學成才，所以我缺乏在線文學中常見的術語和數學。

因此我找到了文檔中“最相關的關鍵字”：

我計算當前文檔中每個術語的使用頻率。 我們稱之為tf 。
我查看了在整個文檔數據庫中使用這些術語的頻率。 我們叫這個df 。
我通過r = tf / df計算每個項的相關權重r 。

每個文檔都是語料庫的正確子集，因此沒有文檔包含不在語料庫中的術語。 這意味着我不必擔心被零除。

我按照他們的r對所有術語進行排序，然后保留許多頂級術語。 這些是與本文檔關系最密切的頂級關鍵字。 本文檔中常見的術語更為重要。 整個文檔數據庫中常見的術語不太重要。

我相信這是一種天真的tf-idf形式。

問題是，當術語在整個數據庫中非常罕見但在當前文檔中出現時，它們似乎具有太高的r值。

由於樣本量小，這可以被認為是某種人工制品。 什么是最好的方法或通常的方法來彌補這個？

丟棄整體數據庫中不太常見的術語而不是某個閾值。 如果是這樣，該閾值是如何計算的？ 似乎它將取決於太多因素而不是硬編碼值。
它可以通過某種數學函數（如反平方或余弦）加權或平滑嗎？

我已經嘗試在網上搜索並閱讀tf-idf，但我發現的大部分內容都與比較文檔有關，我對此並不感興趣。而且大多數文章的解釋與術語和公式的比率都很低。

（實際上我的項目是這個問題的概括。我真的在堆棧交換網站上使用標簽，因此術語總數很少，停用詞無關緊要，低使用率標簽可能比低用量詞更常見在標准情況下。）

1 個解決方案

我花了很多時間嘗試針對特定的tf-idf信息進行有針對性的谷歌搜索，並挖掘了許多文檔。

最后，我發現了一個簡明扼要的解釋並附有公式的文檔，即使我可以理解：文檔處理和語義Web，第3周第1講：麥格理大學計算機系Robert Dale的信息檢索排名：

第20頁：

PDF第20頁

我遺漏的兩件事是考慮到集合中的文檔數量，並使用逆df的對數而不是直接使用逆df 。

從 tf-idf 稀疏矩陣中獲取熱門詞（最高 tf-idf 值）

[英]getting top words from the tf-idf sparse matrix (highest tf-idf value)

使用TfidfVectorizer和Scikit-learn的SVM的TF-IDF精度低

[英]Low accuracy for TF-IDF with SVM using TfidfVectorizer and Scikit-learn

如何通過乘以其他兩個tf.feature_columns來創建tf.feature_column？

[英]How to create a tf.feature_column by multiplying two other tf.feature_columns?

如何從數據框列獲取TF功能列？

[英]How can I get a TF feature column from a dataframe column?

如何處理傳統機器學習中的字符串特征數組？

[英]How to deal with array of string features in traditional machine learning?

SVM如何在文檔分類中計算測試文檔的tf-df？

[英]SVM How to calculate tf-df of test documents in document classification?

支持向量機如何處理令人困惑的特征向量？

[英]How does Support Vector Machine deal with confusing feature vectors?

如何使用非常小的數據集對特征進行加權以獲得更好的聚類？

[英]How can I weight features for better clustering with a very small data set?

ValueError：修剪后，將不保留任何條件。嘗試使用較低的min_df或較高的max_df

[英]ValueError: After pruning, no terms remain. Try a lower min_df or a higher max_df

sklearn中的矢量化似乎非常耗費內存。為什么？

[英]Vectorization in sklearn seems to be very memory expensive. Why?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從 tf-idf 稀疏矩陣中獲取熱門詞（最高 tf-idf 值）使用TfidfVectorizer和Scikit-learn的SVM的TF-IDF精度低如何通過乘以其他兩個tf.feature_columns來創建tf.feature_column？如何從數據框列獲取TF功能列？如何處理傳統機器學習中的字符串特征數組？ SVM如何在文檔分類中計算測試文檔的tf-df？支持向量機如何處理令人困惑的特征向量？如何使用非常小的數據集對特征進行加權以獲得更好的聚類？ ValueError：修剪后，將不保留任何條件。嘗試使用較低的min_df或較高的max_df sklearn中的矢量化似乎非常耗費內存。為什么？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM