從.npy文件制作熊貓數據框

Question

我正在嘗試從.npy文件制作一個熊貓數據幀，當使用np.load讀取時，它返回一個包含字典的numpy數組。 我的最初本能是提取字典，然后使用pd.from_dict創建一個數據框，但是每次都會失敗，因為我似乎無法從np.load返回的數組中取出字典。 看起來它只是np.array（[dictionary，dtype = object]），但是我無法通過索引數組或類似的東西來獲取字典。 我也嘗試過使用np.load（'filename'）。item（），但結果仍未被熊貓識別為字典。

另外，我嘗試了pd.read_pickle，但也沒有用。

如何將這個.npy字典放入數據框？ 這是不斷失敗的代碼...

import pandas as pd
import numpy as np
import os

targetdir = '../test_dir/'

filenames = []
successful = []
unsuccessful = []
for dirs, subdirs, files in os.walk(targetdir):
    for name in files:
        filenames.append(name)
        path_to_use = os.path.join(dirs, name)
        if path_to_use.endswith('.npy'):
            try:
                file_dict = np.load(path_to_use).item()
                df = pd.from_dict(file_dict)
                #df = pd.read_pickle(path_to_use)
                successful.append(path_to_use)
            except:
                unsuccessful.append(path_to_use)
                continue

print str(len(successful)) + " files were loaded successfully!"
print "The following files were not loaded:"
for item in unsuccessful:
    print item + "\n"

print df

Answer 1

假設一旦加載了.npy ，該項（ np.load(path_to_use).item() ）看起來與此類似；

{'user_c': 'id_003', 'user_a': 'id_001', 'user_b': 'id_002'}

因此，如果您需要使用上面的字典來提供如下所示的DataFrame；

  user_name user_id
0    user_c  id_003
1    user_a  id_001
2    user_b  id_002

您可以使用;

df = pd.DataFrame(list(x.item().iteritems()), columns=['user_name','user_id'])

如果您有類似以下的詞典列表；

users = [{'u_name': 'user_a', 'u_id': 'id_001'}, {'u_name': 'user_b', 'u_id': 'id_002'}]

您可以簡單地使用

df = pd.DataFrame(users)

提出類似的DataFrame；

     u_id  u_name
0  id_001  user_a
1  id_002  user_b

好像您有一本與此類似的字典；

data = {
    'Center': [[0.1, 0.2, 0.3], [0.4, 0.5, 0.6]],
    'Vpeak': [1.1, 2.2],
    'ID': ['id_001', 'id_002']
}

在這種情況下，您可以簡單地使用；

df = pd.DataFrame(data)  # df = pd.DataFrame(file_dict.item()) in your case

提出類似的DataFrame；

    Center          ID      Vpeak
0   [0.1, 0.2, 0.3] id_001  1.1
1   [0.4, 0.5, 0.6] id_002  2.2

如果字典中包含ndarray ，請執行以下類似的預處理； 並使用它創建df；

for key in data:
    if isinstance(data[key], np.ndarray):
        data[key] = data[key].tolist()

df = pd.DataFrame(data)

從.npy文件制作熊貓數據框

問題描述

1 個解決方案

解決方案1
2 已采納 2016-10-23 09:26:51

從.npy文件制作熊貓數據框

問題描述

1 個解決方案

解決方案1 2 已采納 2016-10-23 09:26:51

解決方案1
2 已采納 2016-10-23 09:26:51