如何将 Dataframe 列一分为二，但考虑到有时没有什么可拆分的并且该值属于第二列？

Question

想象一下我有：

          COLUMN A
0    00000-UNITED STATES
1    01000-ALABAMA
2    01001-Autauga County, AL
3    01003-Baldwin County, AL
4    Barbour County, AL

我想将它们分成两列，但要确保如果最后一行中的值是一个字符串，它会转到第二列。 如果它是 int 则转到第一列。 例如用字符串：

          COLUMN B       COLUMN C
0          00000      UNITED STATES
1          01000         ALABAMA
2          01001     Autauga County, AL
3          01003     Baldwin County, AL
4                    Barbour County, AL

我试过这个：

df[['B','C']] = df.A.str.split(" - ", n = 1, expand=True)

它显然返回了这个：

          COLUMN B       COLUMN C
0          00000      UNITED STATES
1          01000         ALABAMA
2          01001     Autauga County, AL
3          01003     Baldwin County, AL
4     Barbour County, AL

Answer 1

尝试使用extract和正则表达式使第二个捕获组成为可选-之后的值：

df[['B', 'C']] = df['A'].str.extract(r"(\d+$|\d+(?=\s*-))?(?:\s*-\s*)?(.+)?")

                          A       B                   C
0       00000-UNITED STATES   00000       UNITED STATES
1             01000-ALABAMA   01000             ALABAMA
2  01001-Autauga County, AL   01001  Autauga County, AL
3  01003-Baldwin County, AL   01003  Baldwin County, AL
4        Barbour County, AL     NaN  Barbour County, AL
5                     10234   10234                 NaN
6                32 Alabama     NaN          32 Alabama
7            432423 - state  432423               state

完整代码：

import pandas as pd

df = pd.DataFrame({
    'A': ['00000-UNITED STATES', '01000-ALABAMA',
          '01001-Autauga County, AL', '01003-Baldwin County, AL',
          'Barbour County, AL', '10234', '32 Alabama', '432423 - state']
})

df[['B', 'C']] = df['A'].str.extract(r"(\d+$|\d+(?=\s*-))?(?:\s*-\s*)?(.+)?")

Answer 2

您可以创建两个函数来从 COLUMN A 中提取所需元素并分配给 COLUMN B 和 COLUMN C：

def get_col_b(item):
    if '-' in item:
        return item.split('-')[0]
    else:
        return ''

def get_col_c(item):
    if '-' in item:
        return item.split('-')[1]
    else:
        return item

创建列，然后删除 COLUMN A：

df['COLUMN B'] = df['COLUMN A'].apply(get_col_b)
df['COLUMN C'] = df['COLUMN A'].apply(get_col_c)
cols = ['COLUMN B', 'COLUMN C']
df = df[cols]

如何将 Dataframe 列一分为二，但考虑到有时没有什么可拆分的并且该值属于第二列？

问题描述

2 个解决方案

解决方案1
1 已采纳 2021-05-28 01:10:28

解决方案2
0 2021-05-28 01:26:34

如何将 Dataframe 列一分为二，但考虑到有时没有什么可拆分的并且该值属于第二列？

问题描述

2 个解决方案

解决方案1 1 已采纳 2021-05-28 01:10:28

解决方案2 0 2021-05-28 01:26:34

解决方案1
1 已采纳 2021-05-28 01:10:28

解决方案2
0 2021-05-28 01:26:34