[英]Understanding variables from speech recognition paper in HMM-GMM
我正在閱讀 Mark Gales 和 Steve Young 關於使用 HMM-GMM 進行語音識別的論文。 在第 205 頁第二段中,寫道:
"對於每個話語 Y (r) , r = 1, . . , R, 長度為 T (r)的基本形式序列, HMMs 對應於話語中的詞序列, 和相應的復合 HMM構造“
沒看清楚什么是Y (r)和Tsup>(r)? 有人可以澄清一下嗎? 我不明白r和R代表什么?
同樣在這篇題為: A Parallel Implementation of Viterbi Training for Acoustic Models using Graphics Processing Units 的論文中,作者在第 2.1 節提到:
" Given a set of training observations Osup>(r), 1 ≤ r ≤ R and an HMM state sequence 1 < j < N the observations sequence is aligned to the state sequence via Viterbi alignment. "
我知道這兩個句子是相似的,但在上面的論文中我也不明白r和R是什么。
在 HMM 中,您有時間序列的觀察結果。 語音識別是一項特殊的任務,因為觀察長度不是固定的而是可變的。
據我了解,觀察 Y(r) 給出為:
Y(r) = {Y_0, Y_1, Y_2, ..., Y_R},因此 r 是 r = 0, 1, ..., ZE1E1D3D40573127E9EE0480CAF1 的索引。
在這種情況下,r 是觀察計數,R 是最后一個觀察。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.