簡體   English   中英

BLEU分數和METEOR有什么區別?

[英]What are the differences between BLEU score and METEOR?

我試圖理解評估機器翻譯評估分數的概念。

我了解 BLEU 分數是如何達到的。 它查看不同的 n-gram,如 BLEU-1、BLEU-2、BLEU-3、BLEU-4,並嘗試與人類書面翻譯相匹配。

但是,我真的無法理解 METEOR 分數用於評估 MT 質量。 我正在嘗試直觀地理解基本原理。 我已經在查看不同的博客文章,但無法真正弄清楚。

這兩個評估指標有何不同以及它們有何相關性?

有人可以幫忙嗎?

METEOR 是對 MT 標准精度召回評估類型的修改。 您希望翻譯假設中的所有單詞在參考翻譯中都有一個對應項(精確度),而翻譯假設中的參考翻譯中的所有單詞(召回率)。 召回率的權重是精度的 9 倍。

為此,需要假設和參考中的單詞之間的(單語)alignment 這對於機器翻譯來說並不容易,因為翻譯可能會使用不同的詞來表達相同的意思。 為此,METEOR 使用了一個包含單詞 n-gram 釋義的表,這些釋義是特定於語言的。

最后,對於 alignment 丑陋有一個懲罰 如果你隨機打亂翻譯,你仍然可以得到一個完美的 alignment,但句子顯然被打破了。 懲罰是 1 減去對齊的單詞總數上對齊的連續單詞塊的數量的立方。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM