簡體   English   中英

來自本地視頻的 SFSpeechRecognizer

[英]SFSpeechRecognizer from Local Video

我正在嘗試從視頻中實現語音轉錄(語音到文本)。 我的方法是將其分解為 3 個步驟:

  1. 將視頻轉換為音頻文件 (m4a/mp3)
  2. 使用音頻文件 url 將音頻傳遞給 SFSpeechRecognizer 請求
  3. 成績單

我的問題是我還沒有找到將源視頻文件(比如說 .mov)轉換為純音頻文件的方法。 視頻的 AVAsset 本身沒有任何音軌,但在播放文件時仍然有音頻(所以它確實存在)。

我想如果我能解決第 1 步,那么 2 + 3 是微不足道的,所以我的問題是 - 將視頻文件轉換為純音頻文件的最佳方法是什么,然后我可以將其用於轉錄。

您可以使用FFmpegKit庫來提取視頻的音頻部分。

庫示例: https ://github.com/tanersener/ffmpeg-kit/tree/main/apple#3-using

提取音頻的ffmpeg命令示例: https ://stackoverflow.com/a/27413824/5707560

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM