我正在尝试运行 https 中共享的wav2vec2语音识别model://huggingface.co/docs/transformers/tasks/asr 这是训练过程中的loss和WER ,此时validation loss明显减少,而WER依然为1。 我尝试打印出预测值和 label 值 ...
我正在尝试运行 https 中共享的wav2vec2语音识别model://huggingface.co/docs/transformers/tasks/asr 这是训练过程中的loss和WER ,此时validation loss明显减少,而WER依然为1。 我尝试打印出预测值和 label 值 ...
您好 flutter 开发人员,我正在做一个项目,我需要在调用SpeechToText.listen()时更改初始声音。 请帮我解决这个问题,我搜索了很多来解决这个问题,请开发人员帮助我。 ...
我有以下代码用于在我的 flutter 应用程序中制作标签。 我希望添加 speech_to_text 的功能,用户可以在其中说话并且文本显示在该字段中。 怎么做? 我能够在纯文本字段中将语音功能单独添加到文本中,但无法将其与标签集成。 这是我的问题。 ...
尝试使用 Speech to Text 时,使用此代码时,我总是在 Chrome 上收到 Websocket 错误: 我已尝试尝试我知道的任何订阅密钥(LUIS、认知语音、来自 API 管理器的订阅),但似乎没有任何效果。 我认为: fromAuthorizationToken()是错误的,但我不知 ...
打电话时 这是为了从 model 中获取发射概率。 但我明白了 ...
所以我有一个 Electron 应用程序,它使用 web 语音 API (SpeechRecognition) 来获取用户的声音,但是,它不起作用。 代码: 它说We are listening... in the console,但无论你说什么,它都不会给出 output。另一方面,在 Goog ...
我正在使用 azure 语音转文本来查找 wav 文件中话语的时间戳。 我遇到的问题是,如果用户记录了数字,例如“我要数到三。一、二、三,我来了”。 output 中省略了数字。英语和其他语言都会出现这种情况。 我可以理解省略“eh”和“ah”之类的话语,但是数字? 为什么这是默认值。 我正在使用 ...
我想使用 gtts 在两个使用不同方言的人之间进行对话。 我的逻辑很简单,对话在列表中,如果它以人 1 开头,那么它会说出那个并将其作为 mp3 放入 mp3_files 中。 然后我会把它们结合起来制作一个 mp3。 我不断收到错误,我不知道如何继续。 错误: ...
我正在使用 react-native-voice 和 expo-speech 库来转录我的声音并将文本转换为语音。 问题是,当我结束注册我的声音并开始用 expo-voice 演讲时,没有声音。 录音结束时,react-native-voice 似乎完全静音了音频。 演讲开始了,但我必须按下麦克风 ...
我想将浏览器支持语音识别值设置为TextField值。 我想编辑那个语音识别值。 在我的代码中,没有编辑值也没有得到输入值。 但是transcript值显示在TextField中。 ...
我将文件存储在 s3 存储桶中,这些文件是从 Genysis Purecloud 上传的。 它们是保存为.opus 文件的客户调用,但在使用python 中的下载功能时可以转换为.wav 文件。 我在使用 Python 库boto3和speech_recognition处理这些文件时遇到问题。 我需 ...
我想使用 google speech api 将音频文件转换为字符串。 但它似乎只接受.raw 文件。 ...
我找不到 flutter 文本转语音和语音转文本支持的语言语音(口音) 我想获得支持的语音列表及其语言和国家/地区代码 ...
如何在 flutter 文本转语音和语音转文本中将助理口音设置为以阿姆哈拉语为母语的人? 它确实适用于英语口音(它可以阅读阿姆哈拉语字母,但口音不好听母语为阿姆哈拉语的人),那我该怎么办? 我正在尝试开发阿姆哈拉语文本到语音和语音到文本转换器 ...
我注意到使用 openai whisper 语音到文本库转录多种语言的语音有时会准确识别另一种语言的插入,并会提供预期的 output,例如:八十多个人 is the same as 八十几个人. So 多 and 几 are interchangeable and they can both me ...
我在 Python 中使用 Vosk ( https://alphacephei.com/vosk/ ),我想获取音频文件中每个单词的开始和结束时间,并且我有音频文件的抄本。 我正在使用我在网上找到的一些代码,使用 Vosk 执行语音到文本的转换,它还给出了每个单词的开始和结束时间。 不幸的是,转 ...
我有一个 Android 应用程序,它使用离线 Google Speech To Text 引擎。 我想让它识别地址,但它试图将它们转换为常用词。 我需要一些地址列表的提升。 它不是Train google speech to text的副本,因为我需要它离线工作。 如果我直接在应用程序中的 cl ...
我不断收到这些错误。 我知道问题是由于 Navigator.pushnamed 而发生的,但我不知道如何解决它。 我尝试使用其他方式移动其他页面,但没有用。 任何一个 ...
我正在使用 azure 语音通过麦克风实时发送文本,我想在谈话结束时获取音频文件。 我发现这个 API Get Custom Model Endpoint Log可以获取文件,但是如何获取logId? 我试图在文档中找到它,但一无所获, 设置此项但日志中没有任何变化。 ...
我将MS Azure 语音转文本服务与 Python 一起使用。 我的data输入是字节串,只有几秒的音频。 我的期望是当 stream 结束并返回识别的文本时,云服务停止处理音频。 相反,它需要大约 5 分钟才能触发recognized的事件。 speech_config = ...