簡體   English   中英

Image Captioning評估常用的BLEU平滑function是哪個?

[英]Which BLEU smoothing function is commonly used for Image Captioning evaluation?

我正在圖像字幕領域研究和運行一些實驗,我無法完全弄清楚的一件事是我何時必須評估我訓練的模型:我應該使用哪些 NLTK 平滑函數。

當我嘗試在沒有 Smoothin function 的情況下運行 BLEU 測試時,我收到一條警告告訴我這樣做,但其中有 7 個。 由於沒有 Image captioning paper 指定他們如何執行他們的 bleu 度量,我在這一點上有點迷失。

應該使用哪一個,為什么?

2002 年的標准 BLEU 分數是語料庫級別的分數,在nltk.translate.bleu_score.corpus_bleu中實現,它通常不需要平滑,因為它計算整個語料庫的n- gram 精度,零不太可能。 機器翻譯和圖像字幕論文中報告的指標是語料庫級 BLEU。 n- gram 精度為零時, 會觸發 NLTK 中的警告。 它只發生在 output 質量低(或有一些錯誤)並且分數不應該被信任時。

2014 年 BLEU 的句子級變體nltk.translate.bleu_score.sentence_bleu中實現,計算句子級的n- gram 精度,這通常會導致零,從而導致分數的高方差和與人類判斷的低相關性。 因此,通常需要某種平滑處理。 然而,句子級 BLEU 並不是一個好的句子級指標,並且有更好的替代方法,例如 chrF 分數。

請注意,BLEU 的 NLTK 實現不是大多數研究論文中使用的參考實現(它使用不同的標記化)。 為了與研究論文進行比較,應使用SacreBLEU實現。 尤其是在機器翻譯領域,這是事實上的標准。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM