標簽[voice-detection] - 堆棧內存溢出

[英]Web Audio API: how can I detect speech and record until silence, with or without a Push-To-Talk button

我正在使用MediaRecorder API 成功運行充當語音消息發送者的客戶端 web 頁面：當用戶按下任意鍵時，開始錄音，當按鍵被釋放時，錄音會通過 soketio 發送到服務器進行進一步處理。這是一種PTT（一鍵通）用戶體驗，用戶只需按下一個鍵（推）即可激活語音記錄。之后他必須松開按鍵 ...

Google Speech API - 有沒有辦法確定音頻是否有人聲？

[英]Google Speech API - Is there a way to determine if the audio has human voice or not?

我正在制作一個音頻過濾應用程序，它可以讀取數百個音頻文件並對其進行過濾。因此，如果音頻中有人聲，它將接受它，如果沒有，它將刪除音頻文件。我正在使用 ffmpeg 來獲取音頻的詳細信息並添加其他過濾器，例如大小和持續時間以及靜音（盡管在檢測所有音頻文件的靜音方面不是很准確。）我的公司讓我嘗試使 ...

使用Kaldi在不綁定語言的情況下使用深度神經網絡進行命令檢測

[英]Command detection with Deep Neural Networks using Kaldi without binding to a language

是否有人看到任何示例，如何設置簡單的應用程序來訓練dnet，然后使用它來識別有限數量的語音命令而不綁定到特定語言？我相信Kaldi API的功能非常強大，但是缺少文檔。 ...

嘗試安裝軟件包時出現Setuptools錯誤

[英]Setuptools error when trying to install a package

我是Python的新手，我想在Windows 7中安裝py-webrtcvad軟件包，但是我陷入了錯誤ImportError: No module named 'pip.utils.setuptools_build'的錯誤中。在stackoverflow中有一個針對此問題的答案，似乎可以為 ...

使用LIUM進行語音活動檢測（VAD / SAR）

[英]Voice Activity Detection (VAD/SAR) with LIUM

我編寫了一個shell腳本來訓練一些GMM進行某種語音活動和靜音。因此，我使用了LIUM揚聲器二元化工具包。我想用它來進行語音活動檢測。以下腳本通過使用Sphinx4從wav音頻文件中提取MFCC功能，在這些功能上訓練GMM並將Viterbi解碼應用於分段。但是，結果非常差，即所 ...

Android應用中的語音檢測

[英]Voice Detection in Android Application

描述我的應用程序從手機麥克風錄制聲音。我正在使用android標准類（ android.media.AudioRecord ）來做到這一點。當我按開始按鈕應用程序開始記錄時，應用程序有兩個按鈕“ 開始 ”和“ 停止 ”，當我按停止應用程序時，應用程序停止記錄並以.wav格式的語 ...

從任意音頻文件中提取語音部分的好方法是什么？

[英]What is a good approach for extracting portions of speech from an arbitrary audio file?

我有一組用戶上傳的音頻文件，不知道它們包含什么。我想獲取一個任意的音頻文件，並將有人說話的每個實例提取到單獨的音頻文件中。我不想檢測實際的單詞，只是“開始說話”、“停止說話”點並在這些點生成新文件。（我的目標是 Linux 環境，並在 Mac 上開發）我發現了Sox ，它看起來很有希 ...