簡體   English   中英

未知和已知單詞的詞性

[英]Part of speech for unknown and known words

未知單詞的語音標記部分和已知單詞的語音標記部分之間有什么區別? 是否有任何工具可以預測單詞的詞性標注。

處理詞匯外單詞的一種常用方法是用標記* RARE *替換訓練語料庫中出現率低(例如,頻率<3)的所有單詞,因此標記器可以大致捕獲如何標記稀有詞。 然后在測試階段,只需將標記器詞匯表中未存在的每個單詞都視為* RARE *。

甚至更簡單的方法是使用多數標記來標記每個語音詞匯。 以下代碼使用nltk工具包將每個看不見的單詞標記為“ NN”。

tagger = nltk.UnigramTagger(trainingCorpus, backoff=nltk.DefaultTagger('NN'))

TnT tagger的論文提出了一種有效的方法來標記未知單詞。

本文中可以找到另一種使用詞典來處理未知單詞的方法。 文章顯示,與保加利亞語,捷克語,荷蘭語,英語,法語,德語,北印度語,意大利語,葡萄牙語,西班牙語,瑞典語,泰語和越南語等13種語言的TnT相比,基於詞典的方法獲得了未知單詞的有希望的標記結果。 。 您還可以在文章中找到TnT以及其他13種語言的POS和形態標記器的准確性結果(已知單詞和未知單詞)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM