簡體   English   中英

如何從Wordnet中規范化相似性度量

[英]How to Normalize similarity measures from Wordnet

我試圖計算兩個單詞之間的語義相似性。 我正在使用基於Wordnet的相似性度量,即Resnik度量(RES),Lin度量(LIN),Jiang和Conrath度量(JNC)以及Banerjee和Pederson度量(BNP)。

為此,我使用的是nltk和Wordnet 3.0。 接下來,我想結合從不同度量獲得的相似度值。 為此,我需要對相似度值進行標准化,因為某些度量值會給出介於0和1之間的值,而其他值則會給出大於1的值。

所以,我的問題是如何規范化從不同測量中獲得的相似性值。

關於我實際上要做的事情的更多細節 :我有一套單詞。 我計算單詞之間的成對相似性。 並刪除與集合中其他單詞不強相關的單詞。

如何規范化單個度量

讓我們考慮單個任意相似性度量M並采用任意單詞w

定義m = M(w,w) 然后m取M最大可能值。

讓我們將MN定義為標准化度量M

對於任何兩個單詞w, u你可以計算MN(w, u) = M(w, u) / m

很容易看出,如果M取非負值,則MN[0, 1]

如何通過多種措施將措施標准化

為了計算您自己定義的度量F組合了k個不同的度量m_1, m_2, ..., m_k首先使用上述方法獨立地對每個m_i進行歸一化,然后定義:

alpha_1, alpha_2, ..., alpha_k

這樣alpha_i表示第i個度量的權重。

所有alphas必須總計為1,即:

alpha_1 + alpha_2 + ... + alpha_k = 1

然后計算你自己的w, u度量w, u你做到:

F(w, u) = alpha_1 * m_1(w, u) + alpha_2 * m_2(w, u) + ... + alpha_k * m_k(w, u)

很明顯, F取值為[0,1]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM