cost 313 ms
wav2vec2-base model 的 WER 在整个训练过程中保持为 1 - WER for wav2vec2-base model remains as 1 throughout the whole training process

我正在尝试运行 https 中共享的wav2vec2语音识别model://huggingface.co/docs/transformers/tasks/asr 这是训练过程中的loss和WER ,此时validation loss明显减少,而WER依然为1。 我尝试打印出预测值和 label 值 ...

如何将 speech_to_text 中的文本添加到使用 Flutter 中的 TextFieldTags 小部件创建的标签? - How to add the text from speech_to_text to a tag created using TextFieldTags widget in Flutter?

我有以下代码用于在我的 flutter 应用程序中制作标签。 我希望添加 speech_to_text 的功能,用户可以在其中说话并且文本显示在该字段中。 怎么做? 我能够在纯文本字段中将语音功能单独添加到文本中,但无法将其与标签集成。 这是我的问题。 ...

Azure 语音到文本 SpeechSDK.SpeechConfig.fromAuthorizationToken() 不工作 - Azure Speech To Text SpeechSDK.SpeechConfig.fromAuthorizationToken() Not Working

尝试使用 Speech to Text 时,使用此代码时,我总是在 Chrome 上收到 Websocket 错误: 我已尝试尝试我知道的任何订阅密钥(LUIS、认知语音、来自 API 管理器的订阅),但似乎没有任何效果。 我认为: fromAuthorizationToken()是错误的,但我不知 ...

Azure 语音转文本忽略数字 - Azure speech-to-text ignores numbers

我正在使用 azure 语音转文本来查找 wav 文件中话语的时间戳。 我遇到的问题是,如果用户记录了数字,例如“我要数到三。一、二、三,我来了”。 output 中省略了数字。英语和其他语言都会出现这种情况。 我可以理解省略“eh”和“ah”之类的话语,但是数字? 为什么这是默认值。 我正在使用 ...

在 python 中使用 gtts 进行文本到语音对话 - Text to Speech a conversation using gtts in python

我想使用 gtts 在两个使用不同方言的人之间进行对话。 我的逻辑很简单,对话在列表中,如果它以人 1 开头,那么它会说出那个并将其作为 mp3 放入 mp3_files 中。 然后我会把它们结合起来制作一个 mp3。 我不断收到错误,我不知道如何继续。 错误: ...

React Native - 不能同时使用 Speech To Text 和 Text To Speech - React Native - Cannot use Speech To Text and Text To Speech together

我正在使用 react-native-voice 和 expo-speech 库来转录我的声音并将文本转换为语音。 问题是,当我结束注册我的声音并开始用 expo-voice 演讲时,没有声音。 录音结束时,react-native-voice 似乎完全静音了音频。 演讲开始了,但我必须按下麦克风 ...

如何将语音识别的值传递给文本字段并在该值中编辑和查看控制台 - reactjs - How to pass value of speech recognition to text field and edit and view console in that value - reactjs

我想将浏览器支持语音识别值设置为TextField值。 我想编辑那个语音识别值。 在我的代码中,没有编辑值也没有得到输入值。 但是transcript值显示在TextField中。 ...

处理来自 s3 存储桶的音频文件以在 Python 中将语音转换为文本 - Processing audio files from s3 bucket for speech to text conversion in Python

我将文件存储在 s3 存储桶中,这些文件是从 Genysis Purecloud 上传的。 它们是保存为.opus 文件的客户调用,但在使用python 中的下载功能时可以转换为.wav 文件。 我在使用 Python 库boto3和speech_recognition处理这些文件时遇到问题。 我需 ...

我如何找到 flutter 文本转语音和语音转文本阿姆哈拉语 acc.net - how can I found flutter text to speech and speech to text amharic language accenet

如何在 flutter 文本转语音和语音转文本中将助理口音设置为以阿姆哈拉语为母语的人? 它确实适用于英语口音(它可以阅读阿姆哈拉语字母,但口音不好听母语为阿姆哈拉语的人),那我该怎么办? 我正在尝试开发阿姆哈拉语文本到语音和语音到文本转换器 ...

(错误)- 使用 open.ai whisper 进行文本到文本的翻译 - (Mis)-using open.ai whisper for text-to-text translation

我注意到使用 openai whisper 语音到文本库转录多种语言的语音有时会准确识别另一种语言的插入,并会提供预期的 output,例如:八十多个人 is the same as 八十几个人. So 多 and 几 are interchangeable and they can both me ...

如何使用 Vosk 获取具有已知转录本的音频文件中单词的开始和结束时间? - How can I get the start and end times of words in an audio file with a known transcript using Vosk?

我在 Python 中使用 Vosk ( https://alphacephei.com/vosk/ ),我想获取音频文件中每个单词的开始和结束时间,并且我有音频文件的抄本。 我正在使用我在网上找到的一些代码,使用 Vosk 执行语音到文本的转换,它还给出了每个单词的开始和结束时间。 不幸的是,转 ...

是否可以使用自己的短语将离线 Google 语音训练为文本引擎? - Is it possible to train the offline Google speech to text engine with own phrases?

我有一个 Android 应用程序,它使用离线 Google Speech To Text 引擎。 我想让它识别地址,但它试图将它们转换为常用词。 我需要一些地址列表的提升。 它不是Train google speech to text的副本,因为我需要它离线工作。 如果我直接在应用程序中的 cl ...

MS Azure Speech-to-text Python start_continuous_recognition does not stop at end of stream - MS Azure Speech-to-text Python start_continuous_recognition does not stop at end of stream

我将MS Azure 语音转文本服务与 Python 一起使用。 我的data输入是字节串,只有几秒的音频。 我的期望是当 stream 结束并返回识别的文本时,云服务停止处理音频。 相反,它需要大约 5 分钟才能触发recognized的事件。 speech_config = ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM