Python SpeechRecognition 不收聽完整音頻？

Question

我只是想簡單地使用 python SpeechRecognition 從音頻文件中獲取成績單。 似乎無論我設置什么 pause_threshold，或持續時間或其他什么，它總是給我相同的精確輸出，大約 80 秒音頻中的 30 秒，然后它切斷。

import speech_recognition as sr

import moviepy.editor as mp

clip = mp.VideoFileClip(r"recording2.webm")

clip.audio.write_audiofile(r"converted.wav")

r = sr.Recognizer()

r.pause_threshold = 10

# r.energy_threshold = 4000

audio = sr.AudioFile("converted.wav")

with audio as source:
   audio_file = r.record(source, duration=90)

result = r.recognize_azure(audio_file, key=AZUREKEY, language="en-US", show_all=False, location="westeurope")

print(result)

不管我怎么設置，結果還是一樣。

Answer 1

我不確定這是否是正確的方法，但它目前足以解決這個問題。 我將音頻分成 30 秒的塊並構建了整個轉錄本。

with audio as source:
    r.adjust_for_ambient_noise(source)
    for chunk in range(no_of_chunks):
        audio_data = r.record(source, duration=30)
        transcript = r.recognize_azure(audio_data, key=AZURE_KEY, language="en-US", show_all=False,
                                       location="westeurope")
        result += transcript + " "

Python SpeechRecognition 不收聽完整音頻？

問題描述

1 個解決方案

解決方案1
0 2021-11-12 14:37:16

Python SpeechRecognition 不收聽完整音頻？

問題描述

1 個解決方案

解決方案1 0 2021-11-12 14:37:16

解決方案1
0 2021-11-12 14:37:16