如何基於其他字段提取csv文件中一個字段的值？

Question

我有一個包含4個字段的csv文件； student_id ， date_of_exam ， subject和marks 。 我想根據每個不同的student_id和subject將值存儲在marks列表中的某個字段中，以便稍后可以對該列表執行一些操作（例如：獲取平均分數等）。

如果我事先有一個student_id和subject我可以這樣做； 我可以對照csv文件中的所有值檢查它們，並存儲與該特定student_id和subject對應的marks （如下面的代碼片段所示）。 但是我該如何為每個學生做呢？ 這是我似乎無法弄清楚的部分。

import csv

with open('results_file.csv', 'r') as f:
    reader = csv.reader(f)

    # next(reader)

    marks = []
    for line in reader:
        if line[0] == student_id and line[2] == subject:
            values.append(float(line[3]))
    print("Maximum: {}, Minimum: {}, Average: {}, Count: {}".format(max(values), min(values), sum(values) / len(values), len(values)))

csv文件如下所示：

student_id,date_of_exam,subject,marks

a1,2012-05-21,Maths,45

a2,2012-05-24,Physics,48

a2,2012--5-27,Chemistry,42

a1,2012-05-15,Language,35

a2,2012-05-21,Maths,49

a3,2012-05-15,Language,47

Answer 1

您可以使用字典：

grades_per_student = {}
grades_per_subject = {}

with open('results_file.csv', 'r') as f:
    reader = csv.reader(f)
    for line in reader:
        if line[0] in grades_per_student.keys():
            grades_per_student[line[0]].append(line[-1])
        else:
            grades_per_student[line[0]] = [line[-1]]
        if line[2] in grades_per_subject.keys():
            grades_per_subject[line[2]].append(line[-1])
        else:
            grades_per_subject[line[2]] = [line[-1]]

結果：

grades_per_student = {'a1': [45, 35], 'a2': [48, 42,49], 'a3': [47]}
grades_per_subjects = {'Maths': [45, 49], 'Physics': [48], 'Chemistry': [42], 'Language': [35, 47]}

Answer 2

您可以使用collections.defaultdict為每個學生/受試者存儲分數：

import csv
from collections import defaultdict

with open('out.csv', 'r') as f:
    reader = csv.reader(f)

    next(reader)    # skip header

    marks = defaultdict(list)
    grades = defaultdict(dict)
    subjects = set()
    for (student_id, date_of_exam, subject, mark) in reader:
        marks[student_id].append(int(mark))
        grades[student_id][subject] = int(mark)
        subjects.add(subject)

    subjects = sorted(subjects)

    print('{: ^10}{: ^10}{: ^10}{: ^10}{: ^5}'.format('student_id', 'maximum', 'minimum', 'average', 'count'))
    for student, marks in marks.items():
        print('{: ^10}{: ^10}{: ^10}{: ^10.2f}{: ^5}'.format(student, max(marks), min(marks), sum(marks) / len(marks), len(marks) ))

    print()

    print('{: ^15}'.format('student\subject'), end='')
    for s in subjects:
        print('{: ^15}'.format(s), end='')

    print()

    for student_id, student_subjects in grades.items():
        print('{: ^15}'.format(student_id), end='')
        for s in subjects:
            if s in student_subjects:
                print('{: ^15}'.format(student_subjects[s]), end='')
            else:
                print('{: ^15}'.format('-'), end='')
        print()

打印：

student_id maximum   minimum   average  count
    a1        45        35      40.00     2  
    a2        49        42      46.33     3  
    a3        47        47      47.00     1  

student\subject   Chemistry      Language         Maths         Physics    
      a1              -             35             45              -       
      a2             42              -             49             48       
      a3              -             47              -              -

Answer 3

我建議您使用pandas庫：

使用pandas.read_csv函數將數據讀入數據框。
傳遞參數names ，您只能加載所需的csv的列

import pandas as pd

df = pd.read_csv('results_file.csv', names=['student_id', 'subject', 'marks'])

如何基於其他字段提取csv文件中一個字段的值？

問題描述

3 個解決方案

解決方案1
1 2019-07-07 08:30:22

解決方案2
1 已采納 2019-07-07 08:37:27

解決方案3
0 2019-07-07 08:35:16

如何基於其他字段提取csv文件中一個字段的值？

問題描述

3 個解決方案

解決方案1 1 2019-07-07 08:30:22

解決方案2 1 已采納 2019-07-07 08:37:27

解決方案3 0 2019-07-07 08:35:16

解決方案1
1 2019-07-07 08:30:22

解決方案2
1 已采納 2019-07-07 08:37:27

解決方案3
0 2019-07-07 08:35:16