簡體   English   中英

有沒有辦法正確標記(PoS 標記)一起形成短語的單詞?

[英]Is there a way to correctly tag (PoS Tagging) the words which are forming a phrase together?

我嘗試了各種方法來正確標記一堆形成短語(尤其是名詞短語)的單詞,但未能成功。

示例:'the'、'first'、'early'、'morning'、'sunbeams'

'early' 和 'morning' 被錯誤地標記為 'Noun' 預期結果應該是:('first', 'adverb'), ('early', 'adverb'), ('morning', 'adjective') , ('陽光', '名詞')

您能否建議一個正確標記這些單詞的程序?

提前致謝。

詞性標注器通常使用隱馬爾可夫模型。 如果您的數據未使用這些方法正確標記,那么您的標記器(自制?)不適合您的輸入數據,或者您的訓練數據不足(太小、錯誤注釋等)。 我認為各種方式是來自 NLTK、spaCy 的標記器或來自斯坦福的工具( https://nlp.stanford.edu/software/ )。 這些軟件包將在當前研究的質量方面發揮作用,所以如果它仍然容易出錯,你將無法修復它。 如果您手頭有一個大型集群,如果您願意,可以使用 n > 3 的 n-gram 構建您自己的標注器,但我懷疑這會比上面提到的模塊更好。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM