簡體   English   中英

我的文本到語音的語音結果聽起來從來沒有 IBM 演示頁面上的好 (2)

[英]My text to speech voice results never sound as good as on the IBM Demo page (2)

當我使用 CURL 提交文本到語音轉換時,我得到了一個聽起來不錯的音頻文件,但有點機器人和鼻音。 但是這個演示頁面聽起來很棒,我永遠無法獲得如此高質量的結果。 我沒有指定要使用的聲音,所以它使用一些默認值。

https://www.ibm.com/demos/live/tts-demo/self-service/home

上面的頁面和我有什么不同?

我的 curl 命令是這樣的:

$ curl -u "apikey:api-removed" --header "Content-Type: application/json" --header "Accept: audio/ogg" -d "@Greeting_Script.txt" --output greeting.ogg --dump-header "logfile.txt" "url-removed"

Redgar Tech 回答說:“如果您在演示頁面上看到過,您使用的是神經增強的 DNN 版本的聲音。在這里,您使用的是他們沒有完美和訓練的常規聲音。”

然而這個鏈接

https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices

“如果您在合成請求中省略可選語音參數,則服務默認使用 en-US_MichaelV3Voice”

我從我的合成請求中省略了可選的語音參數(見上文),但我沒有得到使用 en-US_MichaelV3Voice 的神經增強語音的結果。

所以我嘗試為 en-US_MichaelV3Voice 添加語音參數,現在結果是清晰的神經增強版本,與演示頁面提供的相同。

因此,這意味着聲明省略可選語音參數默認為 en-US_MichaelV3Voice 的文檔是不正確的。 我認為它可能默認為 en-US_MichaelVoice,它不是神經增強版本。

我已經確認,如果我在合成請求中省略可選的語音參數,該服務默認使用 en-US_MichaelVoice。 證據在日志文件中:

會話名稱:EIHRWWSDMRCEZXKA-en-US_MichaelVoice

這意味着此鏈接上的信息

https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices

聲明“如果您從合成請求中省略可選語音參數,則該服務默認使用 en-US_MichaelV3Voice。” 是不正確的。

當我為 en-US_MichaelV3Voice 添加語音參數時,日志文件包含以下行:

會話名稱:FIPYVOXYBMNRSQZQ-en-US_MichaelV3Voice

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM