Pythonic方式循環字典

Question

我正在練習熊貓並完成以下任務：

創建一個列表，其元素是每個.csv文件的列數

.csv文件存儲在以年為單位的字典directory

我使用字典理解dataframes （再次按年份鍵入）將.csv文件存儲為pandas數據幀

directory = {2009: 'path_to_file/data_2009.csv', ... , 2018: 'path_to_file/data_2018.csv'}

dataframes = {year: pandas.read_csv(file) for year, file in directory.items()}

# My Approach 1 
columns = [df.shape[1] for year, df in dataframes.items()]

# My Approach 2
columns = [dataframes[year].shape[1] for year in dataframes]

哪種方式更“Pythonic”？ 或者有更好的方法來解決這個問題嗎？

Answer 1

您的方法將完成它...但我不喜歡讀取整個文件並創建數據幀只是為了計算列。 你可以通過閱讀每個文件的第一行並計算逗號的數量來做同樣的事情。 請注意，我添加1是因為總有一個逗號少於列。

columns = [open(f).readline().count(',') + 1 for _, f in directory.items()]

Answer 2

你的方法2：

columns = [dataframes[year].shape[1] for year in dataframes]

更加Pythonic和簡潔與未來在合並，繪圖，操縱等數據幀的使用，因為理解中隱含了鍵，並且形狀給出了列數

Answer 3

你可以使用：

columns = [len(dataframe.columns) for dataframe in dataframes.values()]

正如@piRSquared所提到的，如果您的唯一目標是獲取數據幀中的列數，則不應讀取整個csv文件，而應使用read_csv函數的nrows關鍵字參數。

Answer 4

import os
#use this to find files under certain dir, you can filter it if there are other files
target_files = os.listdir('path_to_file/')       
columns = list()
for filename in train_files:
    #in your scenario @piRSquared's answer would be more efficient.
    columns.append(#column_numbers)

如果您希望文件名中包含年份的列，則可以過濾文件名並更新字典，如下所示：

year = filename.replace(r'[^0-9]', '')

Pythonic方式循環字典

問題描述

4 個解決方案

解決方案1
4 已采納 2017-11-15 05:59:44

解決方案2
4 2017-11-15 06:14:17

解決方案3
3 2017-11-15 06:09:55

解決方案4
2 2017-11-15 06:10:30

Pythonic方式循環字典

問題描述

4 個解決方案

解決方案1 4 已采納 2017-11-15 05:59:44

解決方案2 4 2017-11-15 06:14:17

解決方案3 3 2017-11-15 06:09:55

解決方案4 2 2017-11-15 06:10:30

解決方案1
4 已采納 2017-11-15 05:59:44

解決方案2
4 2017-11-15 06:14:17

解決方案3
3 2017-11-15 06:09:55

解決方案4
2 2017-11-15 06:10:30