簡體   English   中英

使用WebRTC,Node.js和語音識別引擎進行實時語音識別

[英]Real time speech recognition using WebRTC, Node.js and speech recognition engine

A.我想要實現的目標。

一個Web應用程序,允許在Web瀏覽器中進行實時語音識別(如下所示 )。

B.我目前正在考慮用於實現A的技術。

  • JavaScript的
  • Node.js的
  • 的WebRTC
  • Microsoft Speech API或Pocketsphinx.js或其他東西(不能使用Web Speech API)

C.非常基本的工作流程

  1. Web瀏覽器與節點服務器建立連接(服務器充當信令服務器並且還提供靜態文件)
  2. Web瀏覽器使用getUserMedia()獲取音頻流,並將用戶的語音發送到節點服務器
  3. 節點服務器將正在接收的音頻流傳遞給語音識別引擎進行分析
  4. 語音識別引擎將結果返回給節點服務器
  5. 節點服務器將文本結果發送回啟動Web瀏覽器
  6. (節點服務器執行步驟1到5以處理來自其他瀏覽器的請求)

D.問題

  1. Node.js是否適合實現C?
  2. 如何將接收到的音頻流從我的節點服務器傳遞到與服務器分開運行的語音識別引擎?
  3. 我的語音識別引擎可以作為另一個Node應用程序運行(如果我使用Pocketsphinx)? 所以我的Node服務器與我的Node語音識別服務器通信。

Node.js是否適合實現C?

是的,雖然沒有硬性要求。 有些人正在使用gstreamer運行服務器,例如檢查

http://kaljurand.github.io/dictate.js/

節點也應該沒問題。

如何將接收到的音頻流從我的節點服務器傳遞到與服務器分開運行的語音識別引擎?

節點到節點通信有很多種方法。 其中一個是http://socket.io 還有普通的插座 特定框架取決於您對容錯和可伸縮性的要求。

我的語音識別引擎可以作為另一個Node應用程序運行(如果我使用Pocketsphinx)? 所以我的Node服務器與我的Node語音識別服務器通信。

是的,當然。 您可以創建一個節點模塊來扭曲pocketsphinx API。

更新:檢查一下,它應該類似於你需要的:

http://github.com/cmusphinx/node-pocketsphinx

您應該聯系Andre Natal,他在去年秋天的Firefox峰會上展示了與此相似的演示,現在正在使用Firefox / FxOS實現離線語音識別的Google Summer of Code項目: http ://cmusphinx.sourceforge.net/2014/ 04 /語音項目上,GSOC 2014 /

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM