[英]How to Normalize similarity measures from Wordnet
我試圖計算兩個單詞之間的語義相似性。 我正在使用基於Wordnet的相似性度量,即Resnik度量(RES),Lin度量(LIN),Jiang和Conrath度量(JNC)以及Banerjee和Pederson度量(BNP)。
為此,我使用的是nltk和Wordnet 3.0。 接下來,我想結合從不同度量獲得的相似度值。 為此,我需要對相似度值進行標准化,因為某些度量值會給出介於0和1之間的值,而其他值則會給出大於1的值。
所以,我的問題是如何規范化從不同測量中獲得的相似性值。
關於我實際上要做的事情的更多細節 :我有一套單詞。 我計算單詞之間的成對相似性。 並刪除與集合中其他單詞不強相關的單詞。
讓我們考慮單個任意相似性度量M
並采用任意單詞w
。
定義m = M(w,w)
。 然后m取M
最大可能值。
讓我們將MN
定義為標准化度量M
對於任何兩個單詞w, u
你可以計算MN(w, u) = M(w, u) / m
。
很容易看出,如果M
取非負值,則MN
取[0, 1]
。
為了計算您自己定義的度量F
組合了k個不同的度量m_1, m_2, ..., m_k
首先使用上述方法獨立地對每個m_i
進行歸一化,然后定義:
alpha_1, alpha_2, ..., alpha_k
這樣alpha_i
表示第i個度量的權重。
所有alphas必須總計為1,即:
alpha_1 + alpha_2 + ... + alpha_k = 1
然后計算你自己的w, u
度量w, u
你做到:
F(w, u) = alpha_1 * m_1(w, u) + alpha_2 * m_2(w, u) + ... + alpha_k * m_k(w, u)
很明顯, F
取值為[0,1]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.