Media Foundation音頻/視頻捕獲到MPEG4FileSink會產生錯誤的持續時間

Question

我正在使用Media Foundation框架開發媒體流應用程序。 我使用了互聯網和安東·波林格（Anton Polinger）書中的一些樣本。 不幸的是，將流保存到mp4文件后，文件的元數據已損壞。 持續時間不正確（例如，根據我的PC的工作時間，例如30小時），比特率錯誤。 經過長時間的努力，我已經將其修復為單個流（視頻或音頻），但是當我嘗試同時錄制音頻和視頻時，此問題再次出現。 我的拓撲有問題，但是我不明白是什么，這里可能有一些專家？

我得到音頻和視頻源，將其包裝到IMFCollection中，並通過MFCreateAggregateSource創建聚合源。 我為聚合源中的每個源創建源節點：

Com::IMFTopologyNodePtr 
TopologyBuilder::CreateSourceNode(Com::IMFStreamDescriptorPtr 
streamDescriptor)
{
    HRESULT hr = S_OK;
    Com::IMFTopologyNodePtr pNode;
    // Create the topology node, indicating that it must be a source node.
    hr = MFCreateTopologyNode(MF_TOPOLOGY_SOURCESTREAM_NODE, &pNode);
    THROW_ON_FAIL(hr, "Unable to create topology node for source");

    // Associate the node with the source by passing in a pointer to the media source,
    // and indicating that it is the source
    hr = pNode->SetUnknown(MF_TOPONODE_SOURCE, _sourceDefinition->GetMediaSource());
    THROW_ON_FAIL(hr, "Unable to set source as object for topology node");

    // Set the node presentation descriptor attribute of the node by passing
    // in a pointer to the presentation descriptor
    hr = pNode->SetUnknown(MF_TOPONODE_PRESENTATION_DESCRIPTOR, _sourceDefinition->GetPresentationDescriptor());
    THROW_ON_FAIL(hr, "Unable to set MF_TOPONODE_PRESENTATION_DESCRIPTOR to node");

    // Set the node stream descriptor attribute by passing in a pointer to the stream
    // descriptor
    hr = pNode->SetUnknown(MF_TOPONODE_STREAM_DESCRIPTOR, streamDescriptor);
    THROW_ON_FAIL(hr, "Unable to set MF_TOPONODE_STREAM_DESCRIPTOR to node");

    return pNode;
}

之后，我將每個源連接到transform（H264編碼器和AAC編碼器）以及MPEG4FileSink：

void TopologyBuilder::CreateFileSinkOutputNode(PCWSTR filePath)
{
    HRESULT hr = S_OK;
    DWORD sink_count;

    Com::IMFByteStreamPtr byte_stream;
    Com::IMFTransformPtr transform;

    LPCWSTR lpcwstrFilePath = filePath;
    hr = MFCreateFile(
    MF_ACCESSMODE_WRITE, MF_OPENMODE_FAIL_IF_NOT_EXIST, MF_FILEFLAGS_NONE,
    lpcwstrFilePath, &byte_stream);
    THROW_ON_FAIL(hr, L"Unable to create and open file");

// Video stream
    Com::IMFMediaTypePtr in_mf_video_media_type = _sourceDefinition->GetCurrentVideoMediaType();

    Com::IMFMediaTypePtr out_mf_media_type = CreateMediaType(MFMediaType_Video, MFVideoFormat_H264);
    hr = CopyType(in_mf_video_media_type, out_mf_media_type);
    THROW_ON_FAIL(hr, L"Unable to copy type parameters");

    if (GetSubtype(in_mf_video_media_type) != MEDIASUBTYPE_H264)
    {
        transform.Attach(CreateAndInitCoderMft(MFT_CATEGORY_VIDEO_ENCODER, out_mf_media_type));
        THROW_ON_NULL(transform);
    }

    if (transform)
    {
        Com::IMFMediaTypePtr transformMediaType;
        hr = transform->GetOutputCurrentType(0, &transformMediaType);
        THROW_ON_FAIL(hr, L"Unable to get current output type");

        UINT32 pcbBlobSize = 0;
        hr = transformMediaType->GetBlobSize(MF_MT_MPEG_SEQUENCE_HEADER, &pcbBlobSize);
        THROW_ON_FAIL(hr, L"Unable to get blob size of MF_MT_MPEG_SEQUENCE_HEADER");

        std::vector<UINT8> blob(pcbBlobSize);
        hr = transformMediaType->GetBlob(MF_MT_MPEG_SEQUENCE_HEADER, &blob.front(), blob.size(), NULL);
        THROW_ON_FAIL(hr, L"Unable to get blob MF_MT_MPEG_SEQUENCE_HEADER");

        hr = out_mf_media_type->SetBlob(MF_MT_MPEG_SEQUENCE_HEADER, &blob.front(), blob.size());
        THROW_ON_FAIL(hr, L"Unable to set blob of MF_MT_MPEG_SEQUENCE_HEADER");
    }

    // Audio stream
    Com::IMFMediaTypePtr out_mf_audio_media_type;
    Com::IMFTransformPtr transformAudio;
    Com::IMFMediaTypePtr mediaTypeTmp = _sourceDefinition->GetCurrentAudioMediaType();
    Com::IMFMediaTypePtr in_mf_audio_media_type;
    if (mediaTypeTmp != NULL)
    {
        std::unique_ptr<MediaTypesFactory> factory(new MediaTypesFactory());
        if (!IsMediaTypeSupportedByAacEncoder(mediaTypeTmp))
        {
            UINT32 channels;
            hr = mediaTypeTmp->GetUINT32(MF_MT_AUDIO_NUM_CHANNELS, &channels);
            THROW_ON_FAIL(hr, L"Unable to get MF_MT_AUDIO_NUM_CHANNELS fron source media type");
            in_mf_audio_media_type = factory->CreatePCM(factory->DEFAULT_SAMPLE_RATE, channels);
        }
        else
        {
            in_mf_audio_media_type.Attach(mediaTypeTmp.Detach());
        }

        out_mf_audio_media_type = factory->CreateAAC(in_mf_audio_media_type, factory->HIGH_ENCODED_BITRATE);
        GUID subType = GetSubtype(in_mf_audio_media_type);
        if (GetSubtype(in_mf_audio_media_type) != MFAudioFormat_AAC)
        {
            // add encoder to Aac
        transformAudio.Attach(CreateAndInitCoderMft(MFT_CATEGORY_AUDIO_ENCODER, out_mf_audio_media_type));
        }
    }

    Com::IMFMediaSinkPtr pFileSink;
    hr = MFCreateMPEG4MediaSink(byte_stream, out_mf_media_type,     out_mf_audio_media_type, &pFileSink);
    THROW_ON_FAIL(hr, L"Unable to create mpeg4 media sink");

    Com::IMFTopologyNodePtr pOutputNodeVideo;
    hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, &pOutputNodeVideo);
    THROW_ON_FAIL(hr, L"Unable to create output node");

    hr = pFileSink->GetStreamSinkCount(&sink_count);
    THROW_ON_FAIL(hr, L"Unable to get stream sink count from mediasink");

    if (sink_count == 0)
    {
        THROW_ON_FAIL(E_UNEXPECTED, L"Sink count should be greater than 0");
    }

    Com::IMFStreamSinkPtr stream_sink_video;
    hr = pFileSink->GetStreamSinkByIndex(0, &stream_sink_video);
    THROW_ON_FAIL(hr, L"Unable to get stream sink by index");

    hr = pOutputNodeVideo->SetObject(stream_sink_video);
    THROW_ON_FAIL(hr, L"Unable to set stream sink as output node object");

    hr = _pTopology->AddNode(pOutputNodeVideo);
    THROW_ON_FAIL(hr, L"Unable to add file sink output node");

    pOutputNodeVideo = AddEncoderIfNeed(_pTopology, transform, in_mf_video_media_type, pOutputNodeVideo);

    _outVideoNodes.push_back(pOutputNodeVideo);

    Com::IMFTopologyNodePtr pOutputNodeAudio;

    if (in_mf_audio_media_type != NULL)
    {
        hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, &pOutputNodeAudio);
        THROW_ON_FAIL(hr, L"Unable to create output node");

        Com::IMFStreamSinkPtr stream_sink_audio;
        hr = pFileSink->GetStreamSinkByIndex(1, &stream_sink_audio);
        THROW_ON_FAIL(hr, L"Unable to get stream sink by index");

        hr = pOutputNodeAudio->SetObject(stream_sink_audio);
        THROW_ON_FAIL(hr, L"Unable to set stream sink as output node object");

        hr = _pTopology->AddNode(pOutputNodeAudio);
        THROW_ON_FAIL(hr, L"Unable to add file sink output node");

        if (transformAudio)
        {
            Com::IMFTopologyNodePtr outputTransformNodeAudio;
            AddTransformNode(_pTopology, transformAudio, pOutputNodeAudio, &outputTransformNodeAudio);

            _outAudioNode = outputTransformNodeAudio;
        }
        else
    {
            _outAudioNode = pOutputNodeAudio;
        }
    }
}

當輸出類型應用於音頻轉換時，它具有15個屬性而不是8個屬性，包括MF_MT_AVG_BITRATE，據我所知，應將其應用於視頻。 在我的情況下是192000，與視頻流上的MF_MT_AVG_BITRATE不同。 我的AAC媒體類型是通過這種方法創建的：

HRESULT MediaTypesFactory::CopyAudioTypeBasicAttributes(IMFMediaType * in_media_type, IMFMediaType * out_mf_media_type) {
    HRESULT hr = S_OK;
    static const GUID AUDIO_MAJORTYPE = MFMediaType_Audio;
    static const GUID AUDIO_SUBTYPE = MFAudioFormat_PCM;

    out_mf_media_type->SetUINT32(MF_MT_AUDIO_BITS_PER_SAMPLE, AUDIO_BITS_PER_SAMPLE);

    WAVEFORMATEX *in_wfx;
    UINT32 wfx_size;

    MFCreateWaveFormatExFromMFMediaType(in_media_type, &in_wfx, &wfx_size);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_SAMPLES_PER_SECOND, in_wfx->nSamplesPerSec);
    DEBUG_ON_FAIL(hr);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_NUM_CHANNELS, in_wfx->nChannels);
    DEBUG_ON_FAIL(hr);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_AVG_BYTES_PER_SECOND, in_wfx->nAvgBytesPerSec);
    DEBUG_ON_FAIL(hr);

    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_BLOCK_ALIGNMENT, in_wfx->nBlockAlign);
    DEBUG_ON_FAIL(hr);

    return hr;
}

如果有人可以幫助我或解釋我錯了，那就太好了。 謝謝。

Answer 1

在我的項目CaptureManager中，我遇到了類似的問題-雖然我編寫了用於將許多網絡攝像頭的實時視頻記錄到一個文件中的代碼。 經過對Media Foundation的長期研究，我發現了兩個重要事實：1.實時信號-網絡攝像頭和麥克風並非從0開始-根據規范樣本，它們應從0時間戳開始- 實時信號源 -“第一個示例應具有時間戳記為零。” -但是實時資源會設置當前系統時間。 2.我從您的代碼中看到您正在使用Media IMFMediaSession它是具有IMFMediaSession接口的對象。 我認為您是從MFCreateMediaSession函數創建它的。 此函數創建會話的默認版本，該版本針對從文件播放媒體進行了優化，默認情況下樣本從0開始。 在我看來，主要問題在於默認的媒體會話不會檢查源中媒體樣本的時間戳，因為從媒體文件中它們從零開始或從StartPosition開始。 但是，實時源代碼並非從0開始-它們應該或必須但不是。 因此，我的建議-使用IMFTransform編寫類，這將是源和編碼器之間的“代理”轉換-此“代理”轉換必須修復來自實時源的媒體樣本的時間戳：1.在從實時源接收第一個媒體樣本的同時，它保存第一個媒體樣本的實際時間戳，例如參考時間，並將第一個媒體樣本的時間戳設置為零，必須將此參考時間減去該實時源中的下一個媒體樣本的所有時間戳，並將其設置為媒體的時間戳樣品。 另外，檢查用於調用IMFFinalizableMediaSink的代碼。

問候。

Answer 2

在某些情況下，MP4元數據可能未正確初始化（例如，這樣），但是在您所描述的情況下，問題就像是有效載荷數據，而不是最初設置管道的方式。

解碼器和轉換器通常將樣本的時間戳傳遞通過從輸入到輸出的復制，因此，如果出現錯誤，它們並不表示失敗-您仍然可以將有意義的輸出寫入文件中。 如果您遇到采樣時間問題，很長的記錄，尤其是溢出錯誤，則接收器可能在處理數據時遇到問題。 如果匯率用大分子/分母表示。 重要的是源產生多少采樣時間。

您可能想要嘗試記錄較短的記錄，也可能是純視頻和純音頻的記錄，這可能有助於識別提供導致問題的數據的流。

此外，您可能需要檢查生成的MP4文件原子/框，以識別標題框是否包含錯誤的數據，或者數據本身是否被錯誤地標記，在哪個軌道上以及正確的位置（尤其是開始正確，然后在中間出現怪異的間隙））。

Media Foundation音頻/視頻捕獲到MPEG4FileSink會產生錯誤的持續時間

問題描述

2 個解決方案

解決方案1
2 2017-08-31 01:02:24

解決方案2
0 2017-08-30 17:29:19

Media Foundation音頻/視頻捕獲到MPEG4FileSink會產生錯誤的持續時間

問題描述

2 個解決方案

解決方案1 2 2017-08-31 01:02:24

解決方案2 0 2017-08-30 17:29:19

解決方案1
2 2017-08-31 01:02:24

解決方案2
0 2017-08-30 17:29:19