繁体   English   中英

如何将带有 JSON 文档列的表格转换为几个熊猫数据框 [关闭]

How to transform table with JSON documents columns to several panda data frames [closed]

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

I have a dataframe in Python pandas with rows of NoSQL documents and json strings column and I want to transform it into flat table with specific keys as column name and values as data in rows. 以下是我开始的示例表:

诊断
1 一个
2 b

'a' & 'b' 看起来像:

[{"icd10":"I611","icd10Name":"Intracerebral haemorrhage in hemisphere, cortical","diagType":"1","diagTypeName":"Principal Diagnosis"},{"icd10":"I10","icd10Name":"Essential (primary) hypertension","diagType":"2","diagTypeName":"Comorbidity (โรคอื่นที่เป็นร่วมด้วย)"},{"icd10":"E789","icd10Name":"Disorder of lipoprotein metabolism,unspecified","diagType":"2","diagTypeName":"Comorbidity (โรคอื่นที่เป็นร่วมด้วย)"}]

我想将此表提取到另一个表,例如:

诊断 主要诊断 合并症
1 一个 I611 I10、E789
2 b ... ...

请随时参考此处的图片:

图像

非常感谢你。 另外,请注意“主要诊断”并不总是排在第一位。

1 个回复

尝试将其转换为 lambda function。 遍历字典以分离您的值。 假设主要诊断始终是单一值,但可以有 1 个或多个次要诊断。

data_dict = [{"icd10":"I611","icd10Name":"Intracerebral haemorrhage in hemisphere, cortical","diagType":"1","diagTypeName":"Principal Diagnosis"},{"icd10":"I10","icd10Name":"Essential (primary) hypertension","diagType":"2","diagTypeName":"Comorbidity (โรคอื่นที่เป็นร่วมด้วย)"},{"icd10":"E789","icd10Name":"Disorder of lipoprotein metabolism,unspecified","diagType":"2","diagTypeName":"Comorbidity (โรคอื่นที่เป็นร่วมด้วย)"}]


co_diag = []
for d in data_dict:
    if 'Principal Diagnosis' in d.values():
        pd = d['icd10']
    else:
        co_diag.append(d['icd10'])
        co_diag_str = ', '.join(co_diag)

在这些步骤中,您应该能够编写所需的列。

Output 如果循环:

In [19]: co_diag_str
Out[19]: 'I10, E789'

In [20]: pd
Out[20]: 'I611'
1 将带有XML列的数据框(熊猫)转换为解析

当我有一个带有两列FILE_DATE和FILE_DATA的熊猫数据框时。 FILE_DATA包含我从服务器(oracle CLOB)中提取的XML。 但是我不能直接用eTree解析它,因为它是一个元组。 所以我把它做成了熊猫df。 如何使用eTree解析FILE_DATA列? ...

2020-11-03 18:21:41 0 6   python
3 如何将带有熊猫的csv转换为json

我需要将多个巨大的csv文件(每个100k +行,100 +行)转换为JSON,以进行进一步处理。 我想到了将csv线程化和拆分为块以便更快地处理,但是无法通过内置的csv库使python只读取某些行。 因此,我想到了pandas.read_csv。 但是,现在我想不出一种将熊猫数据帧很好 ...

4 如何将熊猫JSON列转换为数据框?

我有一个混合列的.csv文件,其中一些包含JSON语法(嵌套)的条目。 我想从这些列中提取相关数据,以获得更加丰富的数据框架,以进行进一步的分析。 我已经在Kaggle上检查了本教程,但未能获得所需的结果。 为了更好地解释我的问题,我在下面准备了一个虚拟版本的数据库。 我想生成 ...

5 如何将带有时间的列添加到熊猫数据框(通过JSON创建)?

我从软件API检索数据(JSON格式)并将其转换为数据框,以将其写入CSV(熊猫库)中。 我将在时间中添加一列。 我希望将其写在第一行的“时间”上,例如在下一行写“ Fri Mar 29 09:16:02 2019”。 关于如何实现这一目标的想法? 我必须添加时间,但只在数据框的第一 ...

6 将带有索引的numpy数组转换为熊猫数据框

我有一个要用python ggplot的tile打印的numpy数组。 为此,我需要有一个带有x,y,value列的DataFrame。 我如何才能有效地将numpy数组转换为这样的DataFrame。 请考虑一下,我想要的数据形式是稀疏样式,但是我想要一个常规的DataFrame。 我 ...

10 如何将带有Twitter数据的Json文件转换为R中的数据框?

我的原始文件是70.000行,至少我已经向前走了一步,因为我已经阅读了该文件。 这是我的带有Twitter数据的后处理文件,我只包含标题和10行,我想知道如何继续将一列拆分为n列。 链接到我的github存储库,并带有原始文件的样本 原始文件:具有10行1列的CVS文件 ...

2018-12-20 04:28:31 0 55   r
暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM