将 Pandas DataFrame 中的列值与“NaN”值连接起来

Question

I'm trying to concatenate Pandas DataFrame columns with NaN values.我正在尝试将 Pandas DataFrame列与 NaN 值连接DataFrame 。

In [96]:df = pd.DataFrame({'col1' : ["1","1","2","2","3","3"],
                'col2'  : ["p1","p2","p1",np.nan,"p2",np.nan], 'col3' : ["A","B","C","D","E","F"]})

In [97]: df
Out[97]: 
  col1 col2 col3
0    1   p1    A
1    1   p2    B
2    2   p1    C
3    2  NaN    D
4    3   p2    E
5    3  NaN    F

In [98]: df['concatenated'] = df['col2'] +','+ df['col3']
In [99]: df
Out[99]: 
  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2  NaN    D          NaN
4    3   p2    E         p2,E
5    3  NaN    F          NaN

Instead of 'NaN' values in "concatenated" column, I want to get "D" and "F" respectively for this example?在这个例子中，我想分别得到“D”和“F”而不是“concatenated”列中的“NaN”值？

Answer 1

I don't think your problem is trivial.我不认为你的问题是微不足道的。 However, here is a workaround using numpy vectorization :但是，这是使用 numpy 矢量化的解决方法：

In [49]: def concat(*args):
    ...:     strs = [str(arg) for arg in args if not pd.isnull(arg)]
    ...:     return ','.join(strs) if strs else np.nan
    ...: np_concat = np.vectorize(concat)
    ...: 

In [50]: np_concat(df['col2'], df['col3'])
Out[50]: 
array(['p1,A', 'p2,B', 'p1,C', 'D', 'p2,E', 'F'], 
      dtype='|S64')

In [51]: df['concatenated'] = np_concat(df['col2'], df['col3'])

In [52]: df
Out[52]: 
  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2  NaN    D            D
4    3   p2    E         p2,E
5    3  NaN    F            F

[6 rows x 4 columns]

Answer 2

You could first replace NaNs with empty strings, for the whole dataframe or the column(s) you desire.对于整个数据框或您想要的列，您可以先用空字符串替换 NaN。

In [6]: df = df.fillna('')

In [7]: df['concatenated'] = df['col2'] +','+ df['col3']

In [8]: df
Out[8]:
  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2         D           ,D
4    3   p2    E         p2,E
5    3         F           ,F

Answer 3

We can use stack which will drop the NaN , then use groupby.agg and ','.join the strings:我们可以使用stack来删除NaN ，然后使用groupby.agg和','.join字符串：

df['concatenated'] = df[['col2', 'col3']].stack().groupby(level=0).agg(','.join)

  col1 col2 col3 concatenated
0    1   p1    A         p1,A
1    1   p2    B         p2,B
2    2   p1    C         p1,C
3    2  NaN    D            D
4    3   p2    E         p2,E
5    3  NaN    F            F

将 Pandas DataFrame 中的列值与“NaN”值连接起来

问题描述

3 个解决方案

解决方案1
19 已采纳 2014-05-03 14:08:27

解决方案2
10 2015-12-14 21:29:18

解决方案3
1 2020-10-10 18:29:21

将 Pandas DataFrame 中的列值与“NaN”值连接起来

问题描述

3 个解决方案

解决方案1 19 已采纳 2014-05-03 14:08:27

解决方案2 10 2015-12-14 21:29:18

解决方案3 1 2020-10-10 18:29:21

解决方案1
19 已采纳 2014-05-03 14:08:27

解决方案2
10 2015-12-14 21:29:18

解决方案3
1 2020-10-10 18:29:21