簡體   English   中英

如何證明NDCG得分顯着

[英]how to show that NDCG score is significant

假設我的檢索系統的NDCG分數是.8。 我如何解釋這個分數。 我如何告訴讀者這個分數是否顯着?

NDCG是排名度量。 在信息檢索字段中,您應預測已排序的文檔列表,並將其與相關文檔列表進行比較。 想象一下,您預測了1000個文檔的排序列表,並且有100個相關文檔,當100個相關文檔在列表中具有100個最高排名時,NDCG等於1。

所以.8 NDCG是最佳排名的80%。

這是一個直觀的解釋,真正的數學包括一些對數,但它離此不遠。

要理解這一點,請查看標准化折扣累積增益(nDCG)的示例
對於nDCG,我們需要DCG和Ideal DCG(IDCG)
讓我們先了解什么是累積增益(CG),

Example: Suppose we have [Doc_1, Doc_2, Doc_3, Doc_4, Doc_5]
Doc_1 is 100% relevant
Doc_2 is 70% relevant
Doc_3 is 95% relevant
Doc_4 is 20% relevant
Doc_5 is 100% relevant

所以我們的累積收益(CG)是

CG = 100 + 70 + 95 + 20 + 100  ###(Index of the doc doesn't matter)
   = 385


折扣累積增益(DCG)是

DCG = SUM( relivencyAt(index) / log2(index + 1) ) ###where index 1 -> 5

Doc_1 is 100 / log2(2) = 100.00
Doc_2 is 70  / log2(3) = 044.17
Doc_3 is 95  / log2(4) = 047.50
Doc_4 is 20  / log2(5) = 008.61
Doc_5 is 100 / log2(6) = 038.69

DCG = 100 + 44.17 + 47.5 + 8.61 + 38.69
DCG = 238.97

和理想的DCG是

IDCG = Doc_1 , Doc_5, Doc_3, Doc_2, Doc_4

Doc_1 is 100 / log2(2) = 100.00
Doc_5 is 100 / log2(3) = 063.09
Doc_3 is 95  / log2(4) = 047.50
Doc_2 is 75  / log2(5) = 032.30
Doc_4 is 20  / log2(6) = 007.74

IDCG = 100 + 63.09 + 47.5 + 32.30 + 7.74
IDCG = 250.63

nDCG(5) = DCG    / IDCG
        = 238.97 / 250.63
        = 0.95

結論:

在給定的例子中,nDCG為0.95,0.95不是預測准確度,0.95是文檔的有效排名。 因此,增益從結果列表的頂部累積到底部,每個結果的增益在較低的等級上打折。
維基參考

如果您有相對較大的樣本,則可以使用引導程序重新取樣來計算置信區間,這將顯示您的NDCG分數是否明顯優於零。

此外,您可以使用成對引導重新取樣,以便將NDCG得分與其他系統的NDCG得分進行顯着比較

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM