如何更改語音的音頻格式？

Question

我在Windows上搞亂了SAPI，並且我注意到語音的音頻質量非常差勁。 通過比較簡單測試程序的音頻質量和eSpeak提供的各種質量，我得出結論，默認質量約為16kHz 16 Bit Mono 。

簡單的SAPI測試程序

#include <string>
#include <iostream>

#include <Windows.h>
#include <sapi.h>


#define _CHECK_HR(hr, debug_str)   \
    if(FAILED(hr)) {    \
        std::cout << debug_str << ": " << std::hex << "0x" << hr << std::dec << std::endl;   \
        goto check_failure;   \
    }

#define CHECK_HR(expr, debug_str)  \
    _CHECK_HR(expr, debug_str);

#define SAFE_RELEASE(obj)   \
    if(obj != NULL) {   \
        obj->Release(); \
        obj = NULL; \
    }


int main()
{
    ISpVoice* voice = NULL;

    CHECK_HR(CoInitialize(NULL), "CoInitialize");

    CHECK_HR(CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL, IID_ISpVoice, (LPVOID*)&voice), "voice = CoCreateInstance");
    CHECK_HR(voice->Speak(TEXT("This is a simple test."), 0, NULL), "voice->Speak");

    std::cout << "No errors!" << std::endl;

check_failure:
    SAFE_RELEASE(voice);
    CoUninitialize();
}

自然，我嘗試過查閱SAPI文檔，但是還沒有發現如何更改格式。 ISpVoice沒有設置格式的方法，但是有一個SetOuput方法，該方法需要：

流，音頻設備或輸出音頻設備的對象令牌

下一步是使用SpConvertStreamFormatEnum提供的格式創建IAudioClient ，並將其IAudioRenderClient設置為聲音的輸出。 嘗試失敗，因為我無法初始化IAudioClient。

嘗試將音頻流設置為語音輸出

#include <string>
#include <iostream>

#include <Windows.h>
#include <Mmdeviceapi.h>
#include <Audioclient.h>
#include <audiopolicy.h>
#include <sapi.h>
#include <sphelper.h>


#define _CHECK_HR(hr, debug_str)   \
    if(FAILED(hr)) {    \
        std::cout << debug_str << ": " << std::hex << "0x" << hr << std::dec << std::endl;   \
        goto check_failure;   \
    }

#define CHECK_HR(expr, debug_str)  \
    _CHECK_HR(expr, debug_str);

#define SAFE_RELEASE(obj)   \
    if(obj != NULL) {   \
        obj->Release(); \
        obj = NULL; \
    }

#define SAFE_FREE(obj)   \
    if(obj != NULL) {   \
        CoTaskMemFree(obj); \
        obj = NULL; \
    }


int main()
{
    ISpVoice* voice = NULL;
    IMMDeviceEnumerator* device_enumerator = NULL;
    IMMDevice* audio_device = NULL;
    WAVEFORMATEX *audio_format = NULL;
    GUID format_guid;
    IAudioClient* audio_client = NULL;
    IAudioRenderClient* audio_render_client = NULL;

    CHECK_HR(CoInitialize(NULL), "CoInitialize");

    CHECK_HR(CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL, IID_ISpVoice, (LPVOID*)&voice), "CoCreateInstance");

    CHECK_HR(CoCreateInstance(__uuidof(MMDeviceEnumerator), NULL, CLSCTX_ALL, __uuidof(IMMDeviceEnumerator), reinterpret_cast<void**>(&device_enumerator)), "CoCreateInstance");
    CHECK_HR(device_enumerator->GetDefaultAudioEndpoint(eRender, eMultimedia, &audio_device), "device_enumerator->GetDefaultAudioEndpoint");

    CHECK_HR(audio_device->Activate(__uuidof(IAudioClient), CLSCTX_ALL, NULL, reinterpret_cast<void**>(&audio_client)), "audio_device->Activate");
    CHECK_HR(SpConvertStreamFormatEnum(SPSF_48kHz16BitStereo, &format_guid, &audio_format), "SpConvertStreamFormatEnum");
    CHECK_HR(audio_client->Initialize(AUDCLNT_SHAREMODE_SHARED, AUDCLNT_STREAMFLAGS_NOPERSIST | AUDCLNT_SESSIONFLAGS_DISPLAY_HIDE, 0, 0, audio_format, NULL), "audio_client->Initialize");
    CHECK_HR(audio_client->Start(), "audio_client->Start");
    CHECK_HR(audio_client->GetService(__uuidof(IAudioRenderClient), reinterpret_cast<void**>(&audio_render_client)), "audio_client->GetService");

    CHECK_HR(voice->SetOutput(audio_render_client, FALSE), "voice->SetOutput");
    CHECK_HR(voice->Speak(TEXT("This is a test."), 0, NULL), "voice->Speak");

    std::cout << "No errors!" << std::endl;

check_failure:
    SAFE_RELEASE(device_enumerator);
    SAFE_RELEASE(audio_device);
    SAFE_FREE(audio_format);
    SAFE_RELEASE(audio_client);
    SAFE_RELEASE(audio_render_client);
    CoUninitialize();
}

除此之外，我還研究了SAPI音頻接口，找到了許多其他接口和實現，這些接口和實現似乎都不對這項任務特別有用。 我覺得我在圈子里跑。

問題： 如何像eSpeak的TTSApp一樣更改語音的音頻格式？ TTSApp

Answer 1

嘗試：

ATL::CComPtr<ISpVoice> voice;
voice.CoCreateInstance(CLSID_SpVoice);

CSpStreamFormat format;
format.AssignFormat(SPSF_44kHz16BitMono);

ATL::CComPtr<ISpAudio> audio;
SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOOUT, &audio);
audio->SetFormat(format.FormatId(), format.WaveFormatExPtr());

voice->SetOutput(audio, FALSE);

注意：這不包括任何錯誤處理，因此您的代碼將需要檢查HRESULT返回代碼和對象/指針的有效性。

另請注意，eSpeak的本機輸出格式是16位22050Hz單聲道。

對於C版本，您需要自己處理COM對象的生存期，並查看CSpStreamFormat在AssignFormat ， FormatId和WaveFormatExPtr方法中正在做什么。

如何更改語音的音頻格式？

問題描述

簡單的SAPI測試程序

嘗試將音頻流設置為語音輸出

1 個解決方案

解決方案1
2 已采納 2014-04-09 22:19:25

如何更改語音的音頻格式？

問題描述

簡單的SAPI測試程序

嘗試將音頻流設置為語音輸出

1 個解決方案

解決方案1 2 已采納 2014-04-09 22:19:25

解決方案1
2 已采納 2014-04-09 22:19:25