繁体   English   中英

将嵌套列拆分为新列

[英]Split nested column into new columns

我的 dataframe 有一个嵌套列 (people_info),其中包含如下示例中的单元格。

[{"institution":"some_institution","startMonth":1,"startYear":2563,"course":"any","id":1111,"formation":"any","endMonth":12, “结束年”:2556,“状态”:“完成”}]

据我所知,这可以使用字典/json 概念来解决。

考虑到这个嵌套单元格的每个键都将是一个具有各自值的新列,我正在尝试将此列拆分为新列。

我尝试了 json_normalize,但出现此错误:“AttributeError: 'str' object has no attribute 'values'”

我试图在字典中转换这些单元格,但我从来没有能够让 python 明白“机构”是一个键,而“some_institution”是这个创建的字典中的一个值。 似乎 python 将整个单元格理解为一个字符串。

你能帮助我吗? 如果我不清楚,请告诉我。 谢!

IIUC,以下应该有效:

输入

df = pd.DataFrame({'col1':[1], 'col2':2, 'nested_column':'[{"institution":"some_institution","startMonth":1,"startYear":2563,"course":"any","id":1111,"formation":"any","endMonth":12,"endYear":2556,"status":"complete"}]'})

df

  col1  col2    nested_column
0    1     2    [{"institution":"some_institution","startMonth...

过程

import json
df['nested_column_dict'] = df['nested_column'].transform(lambda x : json.loads(x)[0] if x is not np.nan else {})
df = pd.concat([df, pd.DataFrame.from_records(df['nested_column_dict'])], axis=1)
df.drop('nested_column_dict', axis=1, inplace=True)

Output

 df

 col1   col2    nested_column                                           institution startMonth  startYear   course    id    formation   endMonth    endYear   status
0   1      2    [{"institution":"some_institution","startMonth...   some_institution         1      2563       any  1111          any         12       2556 complete

也许这有帮助。

导入 pandas 作为 pd

数据= [{“机构”:“some_institution”,“startMonth”:1,“startYear”:2563,“course”:“any”,“id”:1111,“formation”:“any”,“endMonth”: 12,“结束年”:2556,“状态”:“完成”}]

l = next(数据中的项目)

df = pd.DataFrame(l, index=[0])

df

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM