簡體   English   中英

語言模型評估如何處理未知詞?

[英]How does language model evaluation work with unknown words?

因此,對於構建語言模型,將排名超出詞匯量范圍的頻率較低的單詞替換為“ UNK”。

我的問題是,如何評估基於“ UNK”評估概率的語言模型? 假設我們要在測試集上評估這種語言模型的困惑性,對於模型未知的單詞,我們基於未知單詞的“袋”評估獲得的概率。

這似乎是有問題的,因為如果我們將詞匯量設置為1,即所有單詞都是未知的,那么這種無能為力的語言模型的困惑將是1。

這個文件很好地解釋了這個問題:

https://web.stanford.edu/~jurafsky/slp3/4.pdf

簡而言之,困惑只能在具有相同詞匯的語言模型之間進行比較。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM