簡體   English   中英

按熊貓數據框中的列表項分組?

[英]Grouping by list items in pandas dataframe?

我有一個數據結構,其設置如下:

"id":"12345",
"key":"XYZ-123"
"fields":{
    "labels":[
        "label1",
        "label2",
        "label3"
     ]
 },
"id":"67890",
"key":"ABS-789"
"fields":{
    "labels":[
        "label1",
        "label2",
     ]
 }

`

我正在使用大熊貓將它們放入數據框中,我需要做的是獲取具有特定標簽的條目數。 使用上面的代碼,我的理想輸出是label1: 2 label2: 2 label3: 1如何實現呢? 提前致謝。 編輯-我嘗試過的一件事是進一步展平數據框,以便將列輸出為label_1,label_2,label_3等。 但是,列之間有重復的數據。

這是通過collections.Counter一種方法。 我的假設是從以下定義的字典列表開始。

lst = [{"id":"12345","key":"XYZ-123","fields":{"labels":["label1", "label2", "label3"]}},
       {"id":"67890","key":"ABS-789","fields":{"labels":["label1","label2",]}}]

# [{'fields': {'labels': ['label1', 'label2', 'label3']},
#   'id': '12345',
#   'key': 'XYZ-123'},
#  {'fields': {'labels': ['label1', 'label2']}, 'id': '67890', 'key': 'ABS-789'}]

from collections import Counter

c = Counter(el for d in lst for el in d['fields']['labels'])

df = pd.DataFrame(sorted(c.items()), columns=['label', 'count'])

#     label  count
# 0  label1      2
# 1  label2      2
# 2  label3      1

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM