![](/img/trans.png)
[英]getting top words from the tf-idf sparse matrix (highest tf-idf value)
[英]How to deal with very uncommon terms in tf-idf?
我正在實施一個天真的“關鍵字提取算法”。 我是自學成才,所以我缺乏在線文學中常見的術語和數學。
因此我找到了文檔中“最相關的關鍵字”:
每個文檔都是語料庫的正確子集,因此沒有文檔包含不在語料庫中的術語。 這意味着我不必擔心被零除。
我按照他們的r對所有術語進行排序,然后保留許多頂級術語。 這些是與本文檔關系最密切的頂級關鍵字。 本文檔中常見的術語更為重要。 整個文檔數據庫中常見的術語不太重要。
我相信這是一種天真的tf-idf形式。
問題是,當術語在整個數據庫中非常罕見但在當前文檔中出現時,它們似乎具有太高的r值。
由於樣本量小,這可以被認為是某種人工制品。 什么是最好的方法或通常的方法來彌補這個?
我已經嘗試在網上搜索並閱讀tf-idf,但我發現的大部分內容都與比較文檔有關,我對此並不感興趣。而且大多數文章的解釋與術語和公式的比率都很低。
(實際上我的項目是這個問題的概括。我真的在堆棧交換網站上使用標簽,因此術語總數很少,停用詞無關緊要,低使用率標簽可能比低用量詞更常見在標准情況下。)
我花了很多時間嘗試針對特定的tf-idf信息進行有針對性的谷歌搜索,並挖掘了許多文檔。
最后,我發現了一個簡明扼要的解釋並附有公式的文檔,即使我可以理解: 文檔處理和語義Web,第3周第1講:麥格理大學計算機系Robert Dale的信息檢索排名 :
第20頁:
我遺漏的兩件事是考慮到集合中的文檔數量,並使用逆df的對數而不是直接使用逆df 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.