从 python 中的单个 csv 文件创建嵌套字典列表

Question

我有一个具有以下结构的 csv 文件：

team,tournament,player
Team 1,spring tournament,Rebbecca Cardone
Team 1,spring tournament,Salina Youngblood
Team 1,spring tournament,Catarina Corbell
Team 1,summer tournament,Cara Mejias
Team 1,summer tournament,Catarina Corbell
...
Team 10, spring tournament,Jessi Ravelo

我想创建一个包含玩家字典列表的嵌套字典（团队、锦标赛）。 期望的结果是这样的：

{'data': 
   {Team 1:
       {'spring tournament': 
               {'players': [
                   {name: Rebecca Cardone}, 
                   {name: Salina Youngblood},
                   {name: Catarina Corbell}]
        },
        {'summer tournament': 
               {'players': [
                   {name: Cara Mejias}, 
                   {name: Catarina Corbell}]
               }
        }

   },
    ...
  {Team 10:
       {'spring tournament': 
               {'players': [
                   {name: Jessi Ravelo}]
                }
       }
   }
}

我一直在努力像这样格式化它。 我已经能够成功嵌套第一级（团队 # --> 锦标赛），但我无法嵌套第二级。 目前，我的代码如下所示：

d = {}
header = True
with open("input.csv") as f:
    for line in f.readlines():
        if header:
            header = False
            continue
        team, tournament, player = line.strip().split(",")
        d_team = d.get(team,{})
        d_tournament = d_team.get(tournament, {})
        d_player = d_tournament.get('player',['name'])
        d_player.append(player)
        d_tournament['player'] = d_tournament
        d_team[tournament] = d_tournament
        d[team] = d_team
print(d)

修复我的代码以便创建嵌套字典的下一步是什么？

Answer 1

您的实施存在一些问题：

你做d_player = d_tournament.get('player',['name']) 。 但是您实际上想要获取名为 player s的键，这应该是一个字典列表。 这些字典中的每一个都必须具有{"name": "Player's Name"}的形式。 所以你想要l_player = d_tournament.get('players',[]) （默认为空列表），然后执行l_player.append({"name": player}) （我将其重命名为l_player因为它是一个列表，不是字典）。
你做d_tournament['player'] = d_tournament 。 我怀疑你的意思是d_tournament['player'] = d_player
去除行中元素的空白。 做team, tournament, player = (word.strip() for word in line.split(","))

进行这些更改后，您的代码可以正常工作

我强烈建议您使用csv.reader class 来读取您的 CSV 文件，而不是手动用逗号分隔行。

此外，由于 python 的容器（列表和字典）包含对其内容的引用，您只需添加一次容器，然后使用mydict["key"] = value或mylist.append()对其进行修改，这些更改将反映在父容器也是。 由于这种行为，您不需要像使用d_team[tournament] = d_tournament那样在循环中重复分配这些东西

allteams = dict()
hasHeader = True
with open("input.csv") as f:
    csvreader = csv.reader(f)
    if hasHeader: next(csvreader) # Consume one line if a header exists

    # Iterate over the rows, and unpack each row into three variables
    for team_name, tournament_name, player_name in csvreader:
        # If the team hasn't been processed yet, create a new dict for it
        if team_name not in allteams:
            allteams[team_name] = dict()

        # Get the dict object that holds this team's information
        team = allteams[team_name]

        # If the tournament hasn't been processed already for this team, create a new dict for it in the team's dict
        if tournament_name not in team:
            team[tournament_name] = {"players": []}

        # Get the tournament dict object
        tournament = team[tournament_name]

        # Add this player's information to the tournament dict's "player" list
        tournament["players"].append({"name": player_name})

# Add all teams' data to the "data" key in our result dict
result = {"data": allteams}
print(result)

这给了我们想要的东西（美化的输出）：

{
    'data': {
        'Team 1': {
            'spring tournament': {
                'players': [
                    { 'name': 'Rebbecca Cardone' },
                    { 'name': 'Salina Youngblood' },
                    { 'name': 'Catarina Corbell' }
                ]
            },
            'summer tournament': {
                'players': [
                    { 'name': 'Cara Mejias' },
                    { 'name': 'Catarina Corbell' }
                ]
            }
        },
        'Team 10': {
            ' spring tournament': {
                'players': [
                    { 'name': 'Jessi Ravelo' }
                ]
            }
        }
    }
}

Answer 2

您描述的示例字典是不可能的（如果您想要键“Team 1”下的多个字典，请将它们放在一个列表中），但是这个片段：

if __name__ == '__main__':
    your_dict = {}
    with open("yourfile.csv") as file:
        all_lines = file.readlines()

    data_lines = all_lines[1:]  #  Skipping "team,tournament,player" line

    for line in data_lines:
        line = line.strip()  # Remove \n
        team, tournament_type, player_name = line.split(",")
        team_dict = your_dict.get(team, {})  # e.g. "Team 1"

        tournaments_of_team_dict = team_dict.get(tournament_type, {'players': []})  # e.g. "spring_tournament"

        tournaments_of_team_dict["players"].append({'name': player_name})

        team_dict[tournament_type] = tournaments_of_team_dict
        your_dict[team] = team_dict

    your_dict = {'data': your_dict}

对于此示例yourfile.csv ：

team,tournament,player
Team 1,spring tournament,Rebbecca Cardone
Team 1,spring tournament,Salina Youngblood
Team 2,spring tournament,Catarina Corbell
Team 1,summer tournament,Cara Mejias
Team 2,summer tournament,Catarina Corbell

给出以下内容：

{
  "data": {
    "Team 1": {
      "spring tournament": {
        "players": [
          {
            "name": "Rebbecca Cardone"
          },
          {
            "name": "Salina Youngblood"
          }
        ]
      },
      "summer tournament": {
        "players": [
          {
            "name": "Cara Mejias"
          }
        ]
      }
    },
    "Team 2": {
      "spring tournament": {
        "players": [
          {
            "name": "Catarina Corbell"
          }
        ]
      },
      "summer tournament": {
        "players": [
          {
            "name": "Catarina Corbell"
          }
        ]
      }
    }
  }
}

Process finished with exit code 0

Answer 3

也许我忽略了一些东西，但你不能使用：

df.groupby(['team','tournament'])['player'].apply(list).reset_index().to_json(orient='records')

Answer 4

你可以这样处理它：

from collections import defaultdict
import csv
from pprint import pprint

d = defaultdict(dict)

with open('f00.txt', 'r') as f:
    reader = csv.DictReader(f)
    for row in reader:
        d[ row['team'] ].setdefault(row['tournament'], []
                                    ).append(row['player'])

pprint(dict(d))

印刷：

{'Team 1': {'spring tournament': ['Rebbecca Cardone',
                                  'Salina Youngblood',
                                  'Catarina Corbell'],
            'summer tournament': ['Cara Mejias', 'Catarina Corbell']},
 'Team 10': {' spring tournament': ['Jessi Ravelo']}}

从 python 中的单个 csv 文件创建嵌套字典列表

问题描述

4 个解决方案

解决方案1
1 已采纳 2021-05-25 16:48:33

解决方案2
0 2021-05-25 16:56:55

解决方案3
0 2021-05-25 19:08:27

解决方案4
0 2021-05-25 19:29:32

从 python 中的单个 csv 文件创建嵌套字典列表

问题描述

4 个解决方案

解决方案1 1 已采纳 2021-05-25 16:48:33

解决方案2 0 2021-05-25 16:56:55

解决方案3 0 2021-05-25 19:08:27

解决方案4 0 2021-05-25 19:29:32

解决方案1
1 已采纳 2021-05-25 16:48:33

解决方案2
0 2021-05-25 16:56:55

解决方案3
0 2021-05-25 19:08:27

解决方案4
0 2021-05-25 19:29:32