簡體   English   中英

從 HMM-GMM 中的語音識別論文中理解變量

[英]Understanding variables from speech recognition paper in HMM-GMM

我正在閱讀 Mark Gales 和 Steve Young 關於使用 HMM-GMM 進行語音識別的論文 在第 205 頁第二段中,寫道:

"對於每個話語 Y (r) , r = 1, . . , R, 長度為 T (r)的基本形式序列, HMMs 對應於話語中的詞序列, 和相應的復合 HMM構造

沒看清楚什么是Y (r)和Tsup>(r)? 有人可以澄清一下嗎? 我不明白rR代表什么?

同樣在這篇題為: A Parallel Implementation of Viterbi Training for Acoustic Models using Graphics Processing Units 的論文中,作者在第 2.1 節提到:

" Given a set of training observations Osup>(r), 1 ≤ r ≤ R and an HMM state sequence 1 < j < N the observations sequence is aligned to the state sequence via Viterbi alignment. "

我知道這兩個句子是相似的,但在上面的論文中我也不明白rR是什么。

在 HMM 中,您有時間序列的觀察結果。 語音識別是一項特殊的任務,因為觀察長度不是固定的而是可變的。

據我了解,觀察 Y(r) 給出為:

Y(r) = {Y_0, Y_1, Y_2, ..., Y_R},因此 r 是 r = 0, 1, ..., ZE1E1D3D40573127E9EE0480CAF1 的索引。

在這種情況下,r 是觀察計數,R 是最后一個觀察。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM