簡體   English   中英

使用維特比算法進行語音標記的一部分

[英]Part of speech tagging with Viterbi algorithm

我正在一個項目中,需要使用維特比算法對句子列表進行語音標記。 對於我的訓練數據,我有已經被單詞標記的句子,我認為我需要解析並存儲在某些數據結構中。 然后,我得到了一個測試數據,該數據還包含在其中標記每個單詞的句子。

我對如何解決這個問題有些困惑。 我想部分原因是因為我不完全了解Viterbi算法的要點。 我是否應該使用維特比算法標記測試數據並將結果與​​實際數據進行比較? 哪種數據結構最能做到這一點並代表一個句子?

任何幫助將不勝感激。

Viterbi算法不會標記您的數據。 您應該手動(或通過最新的解析器半自動)標記數據進行培訓。

維特比(Viterbi)用於計算到節點的最佳路徑,並找到對數概率最低的每個節點的路徑。

HMM(Viterbi)POS Tagger的Python實現: https : //github.com/zachguo/HMM-Trigram-Tagger/blob/master/HMM.py

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM