繁体   English   中英

HMM中的起始和结束状态是否在实施用于POS标记的维特比算法时是必需的?

[英]Are start and end states in HMM, necessary when implementing the Viterbi Algorithm for POS tagging?

我不完全了解如何在隐马尔可夫模型中使用开始和结束状态。 为了设计和实现过渡和发射矩阵,这些是否必要?

开始/结束状态对于建模标签是否可能出现在句子的开头或结尾是必要的。

例如,如果你有五个单词的句子而你正在考虑两个标签

  1. Det Noun Verb Det Noun
  2. Det Noun Verb Det Adj

这两个在转换方面看起来都很好,因为Det-> Noun和Det-> Adj都非常可能。 但是,一个句子在一个Adj中结束比一个名词要少得多,这是你没有结束标记就得不到的东西。 所以你真正想要比较的是

  1. START Det Noun Verb Det Noun END
  2. START Det Noun Verb Det Adj END

然后你将计算P(END | Noun)和P(END | Adj)。


如果您正在进行有监督的训练,那么使用START / END获得概率与其他标记没有什么不同,您只需在计数之前将特殊标记附加到每个句子。 因此,如果您的培训语料库有:

Det Noun Verb
Det Noun Verb Det Noun

然后你会修改它

START Det Noun Verb END
START Det Noun Verb Det Noun END

并计算,例如:

  • P(Det | START)= 2/2
  • P(结束|动词)= 1/2
  • P(结束|名词)= 1/3

此外,排放是微不足道的:P(START | START)= 1且P(END | END)= 1

我认为这个问题真的取决于你的语料库。 例如,如果您使用的语料库包含完整句子(从语义上讲),那么我建议您添加开始和结束状态,以改进语言模型。 但如果语料库中充满了句子片段,那么我认为开始/结束状态不会有所帮助。 他们甚至可能适得其反。

基本上,在pos标记中,开始状态尝试模拟哪种标记更可能出现在句子的开头。 最终状态同样如此。 因此,如果您的语料库中的句子实际上是句子,这些开始/结束状态将教您的语言模型如何开始或完成一个句子。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM