"從多個文件創建熊貓數據框"

Question

我正在嘗試創建一個 pandas DataFrame<\/code> ，它適用於單個文件。如果我需要為具有相同數據結構的多個文件構建它。因此，我有一個文件名列表，而不是單個文件名，我想從中創建DataFrame<\/code> 。

不確定在 pandas 中附加到當前DataFrame<\/code>的方法是什么，或者 pandas 有沒有辦法將文件列表吸入DataFrame<\/code> 。

Answer 1

pandas concat命令是您的朋友。 假設您將所有文件都放在一個目錄 targetdir 中。 你可以：

列出文件列表
將它們加載為熊貓數據幀
並將它們連接在一起

`

import os
import pandas as pd

#list the files
filelist = os.listdir(targetdir) 
#read them into pandas
df_list = [pd.read_table(file) for file in filelist]
#concatenate them together
big_df = pd.concat(df_list)

Answer 2

可能效率低下，但...

為什么不使用read_csv來構建兩個（或更多）數據幀，然后使用 join 將它們放在一起？

也就是說，如果您提供一些數據或迄今為止您使用過的一些代碼，那么回答您的問題會更容易。

Answer 3

我可能會嘗試連接文件，然后再將它們提供給熊貓。 如果您使用的是 Linux 或 Mac，您可以使用cat ，否則一個非常簡單的 Python 函數就可以為您完成這項工作。

Answer 4

這些文件是 csv 格式嗎？ 您可以使用 read_csv。 http://pandas.sourceforge.net/io.html

讀取文件並將其保存在兩個數據幀中后，您可以合並兩個數據幀或向兩個數據幀之一添加額外的列（假設有公共索引）。 Pandas 應該能夠填充缺失的行。

Answer 5

import os
import pandas as pd
data = []

thisdir = os.getcwd()

for r, d, f in os.walk(thisdir):
    for file in f:
        if ".docx" in file:
            data.append(file)

df = pd.DataFrame(data)

Answer 6

這是一個簡單的解決方案，它避免使用列表來保存所有數據框，如果您不需要它們在列表中，它會為每個文件創建一個數據框，然后您可以pd.concat<\/code>它們。

import fnmatch

# get the CSV files only
files = fnmatch.filter(os.listdir('.'), '*.csv')
files

"從多個文件創建熊貓數據框"

問題描述

6 個解決方案

解決方案1
34 已采納 2013-01-23 22:58:43

解決方案2
3 2012-05-12 12:35:10

解決方案3
1 2012-05-11 06:17:58

解決方案4
0 2012-05-11 16:55:31

解決方案5
0 2021-02-04 01:06:16

解決方案6
0 2022-02-04 19:37:27

"從多個文件創建熊貓數據框"

問題描述

6 個解決方案

解決方案1 34 已采納 2013-01-23 22:58:43

解決方案2 3 2012-05-12 12:35:10

解決方案3 1 2012-05-11 06:17:58

解決方案4 0 2012-05-11 16:55:31

解決方案5 0 2021-02-04 01:06:16

解決方案6 0 2022-02-04 19:37:27

解決方案1
34 已采納 2013-01-23 22:58:43

解決方案2
3 2012-05-12 12:35:10

解決方案3
1 2012-05-11 06:17:58

解決方案4
0 2012-05-11 16:55:31

解決方案5
0 2021-02-04 01:06:16

解決方案6
0 2022-02-04 19:37:27