[英]Are start and end states in HMM, necessary when implementing the Viterbi Algorithm for POS tagging?
我不完全了解如何在隐马尔可夫模型中使用开始和结束状态。 为了设计和实现过渡和发射矩阵,这些是否必要?
开始/结束状态对于建模标签是否可能出现在句子的开头或结尾是必要的。
例如,如果你有五个单词的句子而你正在考虑两个标签
这两个在转换方面看起来都很好,因为Det-> Noun和Det-> Adj都非常可能。 但是,一个句子在一个Adj中结束比一个名词要少得多,这是你没有结束标记就得不到的东西。 所以你真正想要比较的是
然后你将计算P(END | Noun)和P(END | Adj)。
如果您正在进行有监督的训练,那么使用START / END获得概率与其他标记没有什么不同,您只需在计数之前将特殊标记附加到每个句子。 因此,如果您的培训语料库有:
Det Noun Verb
Det Noun Verb Det Noun
然后你会修改它
START Det Noun Verb END
START Det Noun Verb Det Noun END
并计算,例如:
此外,排放是微不足道的:P(START | START)= 1且P(END | END)= 1
我认为这个问题真的取决于你的语料库。 例如,如果您使用的语料库包含完整句子(从语义上讲),那么我建议您添加开始和结束状态,以改进语言模型。 但如果语料库中充满了句子片段,那么我认为开始/结束状态不会有所帮助。 他们甚至可能适得其反。
基本上,在pos标记中,开始状态尝试模拟哪种标记更可能出现在句子的开头。 最终状态同样如此。 因此,如果您的语料库中的句子实际上是句子,这些开始/结束状态将教您的语言模型如何开始或完成一个句子。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.