Python Pandas使用NaN值拆分列

Question

您好我亲爱的编码员，

我是编码新手，却偶然发现了一个问题。 我想分割通过Python在熊猫中导入的csv文件的列。 列名称为CATEGORY ，包含1、2或3个这样的值，这些值之间用逗号分隔（即：2343、3432、4959）。现在，我想将这些值拆分为名为CATEGORY ， SUBCATEGORY和SUBSUBCATEGORY单独列。

我已经尝试了以下代码行：

products_combined[['CATEGORY','SUBCATEGORY', 'SUBSUBCATEGORY']] = products_combined.pop('CATEGORY').str.split(expand=True)

但我收到此错误： ValueError: Columns must be same length as key

很想听听您的反馈<3

Answer 1

你需要：

pd.DataFrame(df.CATEGORY.str.split(',').tolist(), columns=['CATEGORY','SUBCATEGORY', 'SUBSUBCATEGORY'])

输出：

    CATEGORY SUBCATEGORY SUBSUBCATEGORY
0     2343        3432           4959
1     2343        3432           4959

Answer 2

我认为可以通过创建三个新列并将每个列分配给应用于“ CATEGORY”列的lambda函数来实现。 像这样：

products_combined['SUBCATEGORY'] = products_combined['CATEGORY'].apply(lambda original: original[1] if len(original) > 1 else None)
products_combined['SUBSUBCATEGORY'] = products_combined['CATEGORY'].apply(lambda original: original[2] if len(original) > 2 else None)
products_combined['CATEGORY'] = products_combined['CATEGORY'].apply(lambda original: original[0])

在序列上调用的apply()方法将返回一个新序列，该序列包含在原始序列的每一行上运行传递的函数（在本例中为lambda函数）的结果。

Answer 3

IIUC，使用split然后使用Series ：

(
df[0].apply(lambda x: pd.Series(x.split(",")))
     .rename(columns={0:"CATEGORY", 1:"SUBCATEGORY", 2:"SUBSUBCATEGORY"})
)
  CATEGORY SUBCATEGORY SUBSUBCATEGORY
0     2343        3432           4959
1        1         NaN            NaN
2       44          55            NaN

数据：

d = [["2343,3432,4959"],["1"],["44,55"]]
df = pd.DataFrame(d)

Python Pandas使用NaN值拆分列

问题描述

3 个解决方案

解决方案1
1 已采纳 2018-07-27 15:05:09

解决方案2
0 2018-07-27 14:31:32

解决方案3
0 2018-07-27 14:41:47

Python Pandas使用NaN值拆分列

问题描述

3 个解决方案

解决方案1 1 已采纳 2018-07-27 15:05:09

解决方案2 0 2018-07-27 14:31:32

解决方案3 0 2018-07-27 14:41:47

解决方案1
1 已采纳 2018-07-27 15:05:09

解决方案2
0 2018-07-27 14:31:32

解决方案3
0 2018-07-27 14:41:47