Azure 转录 json 到 pandas df

Question

我正在尝试将 Azure 语音到文本转录服务 (json) 的 output 转换为 pd 数据帧。

以下是获取到的json示例：

{
  "source": "https://batchtranscriptionstore1.blob.core.windows.net/recordings/20210221-1022043b576ef4.wav?fakecredentials123456789",
  "timestamp": "2020-06-16T09:30:21Z",
  "durationInTicks": 41200000,
  "duration": "PT4.12S",
  "combinedRecognizedPhrases": [
    {
      "channel": 0,
      "lexical": "hello world",
      "itn": "hello world",
      "maskedITN": "hello world",
      "display": "Hello world."
    }
  ],
  "recognizedPhrases": [
    {
      "recognitionStatus": "Success",
      "speaker": 1,
      "channel": 0,
      "offset": "PT0.07S",
      "duration": "PT1.59S",
      "offsetInTicks": 700000,
      "durationInTicks": 15900000,
      "nBest": [
        {
          "confidence": 0.898652852,
          "lexical": "hello world",
          "itn": "hello world",
          "maskedITN": "hello world",
          "display": "Hello world.",
          "words": [
            {
              "word": "hello",
              "offset": "PT0.09S",
              "duration": "PT0.48S",
              "offsetInTicks": 900000,
              "durationInTicks": 4800000,
              "confidence": 0.987572
            },
            {
              "word": "world",
              "offset": "PT0.59S",
              "duration": "PT0.16S",
              "offsetInTicks": 5900000,
              "durationInTicks": 1600000,
              "confidence": 0.906032
            }
          ]
        }
      ]
    }
  ]
}

使用下面的代码，我设法用以下列制作了一个 df： source ， timestamp ， durationInTicks ， duration ， combinedRecognizedPhrases

with open('file.json') as json_data:
    data = json.load(json_data)
ll =  pd.DataFrame(dict(list(data.items())[0:5]))

但我还需要单独列中的“combinedRecognizedPhrases”的各个值。 我怎样才能做到这一点？

Answer 1

尝试pd.json_normalize()与record_path然后加入

with open('file.json','r') as f:
    j = json.load(f)
df = pd.json_normalize(j,max_level=1)
df1 = pd.json_normalize(j,max_level=1,record_path=['combinedRecognizedPhrases'])

df2 = df[['source', 'timestamp', 'durationInTicks', 'duration']].join(df1)

Answer 2

根据@Manakin 建议的答案和以下[链接] [1]，我想出了这个解决方案：

with open('file.json','r') as f:
    j = json.load(f)    
zz = pd.json_normalize(j, record_path=['combinedRecognizedPhrases'], meta=['source', 'durationInTicks', 'duration'])

[1]: http://( https://towardsdatascience.com/all-pandas-json-normalize-you-should-know-for-flattening-json-13eae1dfb7dd

Azure 转录 json 到 pandas df

问题描述

2 个解决方案

解决方案1
1 2021-03-18 15:25:53

解决方案2
1 已采纳 2021-03-18 17:08:28

Azure 转录 json 到 pandas df

问题描述

2 个解决方案

解决方案1 1 2021-03-18 15:25:53

解决方案2 1 已采纳 2021-03-18 17:08:28

解决方案1
1 2021-03-18 15:25:53

解决方案2
1 已采纳 2021-03-18 17:08:28