如何從Wordnet中規范化相似性度量

Question

我試圖計算兩個單詞之間的語義相似性。 我正在使用基於Wordnet的相似性度量，即Resnik度量（RES），Lin度量（LIN），Jiang和Conrath度量（JNC）以及Banerjee和Pederson度量（BNP）。

為此，我使用的是nltk和Wordnet 3.0。 接下來，我想結合從不同度量獲得的相似度值。 為此，我需要對相似度值進行標准化，因為某些度量值會給出介於0和1之間的值，而其他值則會給出大於1的值。

所以，我的問題是如何規范化從不同測量中獲得的相似性值。

關於我實際上要做的事情的更多細節：我有一套單詞。 我計算單詞之間的成對相似性。 並刪除與集合中其他單詞不強相關的單詞。

Answer 1

如何規范化單個度量

讓我們考慮單個任意相似性度量M並采用任意單詞w 。

定義m = M(w,w) 。 然后m取M最大可能值。

讓我們將MN定義為標准化度量M

對於任何兩個單詞w, u你可以計算MN(w, u) = M(w, u) / m 。

很容易看出，如果M取非負值，則MN取[0, 1] 。

為了計算您自己定義的度量F組合了k個不同的度量m_1, m_2, ..., m_k首先使用上述方法獨立地對每個m_i進行歸一化，然后定義：

alpha_1, alpha_2, ..., alpha_k

這樣alpha_i表示第i個度量的權重。

所有alphas必須總計為1，即：

alpha_1 + alpha_2 + ... + alpha_k = 1

然后計算你自己的w, u度量w, u你做到：

F(w, u) = alpha_1 * m_1(w, u) + alpha_2 * m_2(w, u) + ... + alpha_k * m_k(w, u)

很明顯， F取值為[0,1]