簡體   English   中英

詞性標注:標記未知單詞

[英]Part of speech tagging : tagging unknown words

在詞性標注器中,使用HMM by確定給定句子的最佳可能標簽

    P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
              T

但是當“Word”沒有出現在訓練語料庫中時,P(Word / Tag)在給定所有可能的標簽時產生ZERO,這就沒有留下選擇最佳標簽的空間。

我嘗試過幾種方法,

1)為所有未知單詞分配少量概率,P(UnknownWord / AnyTag)~Epsilon ...意味着通過分配常數概率完全忽略未知單詞的P(字/標記)。因此對未知單詞做出決策是先驗概率..正如預期的那樣,它沒有產生好的結果。

拉普拉斯平滑我很困惑。 我不知道(1)和這之間有什么區別。 我理解拉普拉斯平滑的方法為所有未知和已知單詞添加了常數概率(lambda)。因此,所有未知單詞將獲得恆定概率(lambda的分數),並且已知單詞概率將相對相同,因為所有單詞的概率增加了LAMBDA。 拉普拉斯平滑是否與前一個相同?

*)有沒有更好的處理未知單詞的方法?

你的兩種方法是相似的,但是,如果我理解正確,它們在一個關鍵方面有所不同。 在(1)中,您將額外質量分配給未知單詞的計數,並且(2)您為所有計數分配額外質量。 你肯定想做(2)而不是(1)。

拉普拉斯平滑的一個問題是它對未知單詞給予過多的提升,並且過多地拖累高概率單詞的概率(相對而言)。 你的版本(1)實際上會惡化這個問題。 基本上,它會過度平滑。

拉普拉斯平滑詞對於HMM來說還可以,但它並不好。 大多數人都會添加一個平滑,但你可以嘗試添加一半或其他東西。

如果你想超越這種天真的方法進行平滑,請查看“一次計數平滑”,如Jason Eisner的HMM教程附錄中所述。 這里的基本思想是,對於未知單詞,應該給出具有更多種低頻詞的標簽更多的概率質量。 例如,由於標簽NOUN出現在大量不同的單詞上,而DETERMINER出現在少量不同的單詞上,因此更有可能是一個看不見的單詞將成為NOUN。

如果你想變得更加漂亮,你可以使用從非參數貝葉斯統計數據中獲取的中國餐館過程模型來預先分配看不見的單詞/標簽組合。 Kevin Knight的貝葉斯推理教程有詳細介紹。

我認為基於HMM的TnT標記器提供了一種處理未知單詞的更好方法(參見TnT標記器文章中的方法 )。

TnT和其他兩種POS和形態標簽的准確性結果(已知單詞和未知單詞)包括保加利亞語,捷克語,荷蘭語,英語,法語,德語,印地語,意大利語,葡萄牙語,西班牙語,瑞典語,泰語和越南語等13種語言,可以在這篇文章中找到。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM