Python Pandas Dataframe - 行級操作

Question

我需要對一張數據表進行大量的行級操作（幾頁代碼）。

例如if row.Col_A == 'X': row.Col_B = 'Y'

我相信 iterrows 不適合更改表值。 因此，我已將表格轉換為 DotMap 字典列表。 有了這個，我可以遍歷列表並為每個字典（行）編寫上面的代碼並保存更改。

是否可以將數據作為 DataFrame 執行此操作？

有很多邏輯，我認為這樣寫最清楚，所以我不想使用 map 或應用函數。

Answer 1

讓我們有以下示例 dataframe：

import pandas as pd
import numpy as np

some_data = pd.DataFrame({
    'col_a': [1, 2, 1, 2, 3, 4, 3, 4],
    'col_b': ['a', 'b', 'c', 'c', 'a', 'b', 'z', 'z']
})

我們希望基於一個（或多個）現有列的值創建一個新列。

如果您只有兩個選項，我建議您使用 numpy.where 像這樣：

some_data['np_where_example'] = np.where(some_data.col_a < 3, 'less_than_3', 'greater_than_3')
print(some_data)
>>>
   col_a col_b           col_c map_example np_where_example  \
0      1     a     less_than_3         NaN      less_than_3   
1      2     b     less_than_3         BBB      less_than_3   
2      1     c     less_than_3         NaN      less_than_3   
3      2     c     less_than_3         NaN      less_than_3   
4      3     a  greater_than_3         NaN   greater_than_3   
5      4     b  greater_than_3         BBB   greater_than_3   
6      3     z  greater_than_3         ZZZ   greater_than_3   
7      4     z  greater_than_3         ZZZ   greater_than_3 

# multiple conditions
some_data['np_where_multiple_conditions'] = np.where(((some_data.col_a >= 3) & (some_data.col_b == 'z')),
                                                     'is_true',
                                                     'is_false')
print(some_data)
>>>
   col_a col_b np_where_multiple_conditions
0      1     a                     is_false
1      2     b                     is_false
2      1     c                     is_false
3      2     c                     is_false
4      3     a                     is_false
5      4     b                     is_false
6      3     z                      is_true
7      4     z                      is_true

如果您有很多選擇，那么 pandas.map 會更好：

some_data['map_example'] = some_data.col_b.map({
    'b': 'BBB',
    'z': 'ZZZ'
})
print(some_data)
>>>
   col_a col_b map_example
0      1     a         NaN
1      2     b         BBB
2      1     c         NaN
3      2     c         NaN
4      3     a         NaN
5      4     b         BBB
6      3     z         ZZZ
7      4     z         ZZZ

如您所見，在所有情況下，未指定條件的值的計算結果為NaN 。

Answer 2

您可以通過以下方式將應用 function 與 lambda 一起使用：

df['Col_B'] = df['Col_A'].apply(lambda a: 'Y' if a == 'X' else 'N')

這會在 dataframe df 上創建列 Col_B，方法是查看 Col_A 並在 Col_A 為“X”時給出值“Y”，否則為“N”。

如果您的 function 有點復雜，您可以預先定義它並在應用 function 中調用它，如下所示：

def yes_or_no(x):
    if x == 'X':
        return 'Y'
    else:
        return 'N'
df['Col_B'] = df['Col_A'].apply(lambda a: yes_or_no(a))

Answer 3

按行迭代 dataframe 並更改列值的一種可能方法是：

確保索引中沒有重復的值（如果有，只需使用reset_index獲取可接受的索引）

遍歷索引並使用at訪問各個值

 for ix in df.index: if df.at[ix, 'A'] ==...: df.at[ix, 'B'] = z

或者，如果您可以通過它們的位置而不是它們的名稱來訪問列，則可以使用更有效的iat ：

for i in range(len(df)):
    if df.iat[i, index_col_A] == ... :
        df.iat[i, index_col_B] = z

當您直接訪問單個元素時，您可以避免每行創建一個系列的iterrows開銷，並且可以執行更改。 AFAIK，當您不能使用矢量化 Pandas 或 numpy 方法時，這是一種不太糟糕的方法。

Python Pandas Dataframe - 行級操作

問題描述

3 個解決方案

解決方案1
1 2020-06-24 06:33:07

解決方案2
0 2020-06-24 06:14:42

解決方案3
0 2020-06-24 06:29:56

Python Pandas Dataframe - 行級操作

問題描述

3 個解決方案

解決方案1 1 2020-06-24 06:33:07

解決方案2 0 2020-06-24 06:14:42

解決方案3 0 2020-06-24 06:29:56

解決方案1
1 2020-06-24 06:33:07

解決方案2
0 2020-06-24 06:14:42

解決方案3
0 2020-06-24 06:29:56