簡體   English   中英

如何處理tf-idf中非常罕見的術語?

[英]How to deal with very uncommon terms in tf-idf?

我正在實施一個天真的“關鍵字提取算法”。 我是自學成才,所以我缺乏在線文學中常見的術語和數學。

因此我找到了文檔中“最相關的關鍵字”:

  1. 我計算當前文檔中每個術語的使用頻率。 我們稱之為tf
  2. 我查看了在整個文檔數據庫中使用這些術語的頻率。 我們叫這個df
  3. 我通過r = tf / df計算每個項的相關權重r

每個文檔都是語料庫的正確子集,因此沒有文檔包含不在語料庫中的術語。 這意味着我不必擔心被零除。

我按照他們的r對所有術語進行排序,然后保留許多頂級術語。 這些是與本文檔關系最密切的頂級關鍵字。 本文檔中常見的術語更為重要。 整個文檔數據庫中常見的術語不太重要。

我相信這是一種天真的tf-idf形式。

問題是,當術語在整個數據庫中非常罕見但在當前文檔中出現時,它們似乎具有太高的r值。

由於樣本量小,這可以被認為是某種人工制品。 什么是最好的方法或通常的方法來彌補這個?

  • 丟棄整體數據庫中不太常見的術語而不是某個閾值。 如果是這樣,該閾值是如何計算的? 似乎它將取決於太多因素而不是硬編碼值。
  • 它可以通過某種數學函數(如反平方或余弦)加權或平滑嗎?

我已經嘗試在網上搜索並閱讀tf-idf,但我發現的大部分內容都與比較文檔有關,我對此並不感興趣。而且大多數文章的解釋與術語和公式的比率都很低。

(實際上我的項目是這個問題的概括。我真的在堆棧交換網站上使用標簽,因此術語總數很少,停用詞無關緊要,低使用率標簽可能比低用量詞更常見在標准情況下。)

我花了很多時間嘗試針對特定的tf-idf信息進行有針對性的谷歌搜索,並挖掘了許多文檔。

最后,我發現了一個簡明扼要的解釋並附有公式的文檔,即使我可以理解: 文檔處理和語義Web,第3周第1講:麥格理大學計算機系Robert Dale的信息檢索排名

第20頁:

PDF第20頁

我遺漏的兩件事是考慮到集合中的文檔數量,並使用逆df的對數而不是直接使用逆df

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM