高效地逐行構建熊貓數據框

Question

我最近一直在通過迭代多個文件、行等來構建 Pandas 數據幀。我一直在通過在字典中附加項目然后轉換為數據幀來構建它們：

我知道還有其他工具，例如 apply() 和 interrows() 可以逐行逐行應用或篩選數據。 這不是這個問題的主題。

new_data_dict = {}
for r in df.index:
    new_data = df.loc[r] **2
    new_data_dict[r] = new_data

new_df = pd.DataFrame.from_dict(new_data_dict, orient = 'index')

這是構建熊貓 df 的最有效方法嗎？ 我沒有將它與 pandas.DataFrame.append 進行比較。 我有兩個關於 append 的想法。 一方面，創建數據幀或系列（單行）只是為了附加它似乎不必要地繁重。 另一方面，pandas 中內置的所有內容都非常快，例如上述方法 apply() 和 iterrows() 以及 groupby() 等。

逐行構建數據框的“大流行”方式是什么？

Answer 1

您可以使用 numpy，而不是使用 for 循環和重復行。

import pandas as pd
import numpy as np
df = pd.DataFrame({'Location':['New York','Florida','California', 'Nevada','Georgia'],
                   'Owner':['John','Gary','Mike','Kate','Lucy'],
                   'Score':[50,80,70,90,80]})

print (df)
new_df = pd.DataFrame(np.repeat(df.values,2,axis=0))
print (new_df)

原始數據框：

     Location Owner  Score
0    New York  John     50
1     Florida  Gary     80
2  California  Mike     70
3      Nevada  Kate     90
4     Georgia  Lucy     80

具有重復行的新數據框：

            0     1   2
0    New York  John  50
1    New York  John  50
2     Florida  Gary  80
3     Florida  Gary  80
4  California  Mike  70
5  California  Mike  70
6      Nevada  Kate  90
7      Nevada  Kate  90
8     Georgia  Lucy  80
9     Georgia  Lucy  80

高效地逐行構建熊貓數據框

問題描述

1 個解決方案

解決方案1
1 2021-01-05 02:31:31

高效地逐行構建熊貓數據框

問題描述

1 個解決方案

解決方案1 1 2021-01-05 02:31:31

解決方案1
1 2021-01-05 02:31:31