繁体   English   中英

Python - 使用 lambda 在 DataFrame 列中应用 rsplit

[英]Python - Apply rsplit in DataFrame column using lambda

我有一个 dataframe 具有以下结构(3列):

DATE,QUOTE,SOURCE
2019-11-21,1ºTEST/2ºTEST DONE, KAGGLE

我想要做的是在 QUOTE 列上创建一个 substring 以便仅使用最后一次出现之后的单词(在本例中为“TEST”)生成一个新列。

我的预期结果:

DATE,QUOTE, SATUS, SOURCE
2019-11-21,1ºTEST/2ºTEST DONE, DONE, KAGGLE

为此,我正在尝试使用以下代码:

import pandas as pd
df = pd.read_excel (filename)
split = lambda x: len(x['QUOTE'].rsplit('TEST',1)[0])
df["STATUS"] = df.apply(split, axis=1)
print(df["STATUS"].unique())

但是我只是打印数字而不是“完成”。

我做错了什么?

谢谢!

在 split 的定义中,您使用的是len ,它返回序列的长度(整数),

len([1, 'Done'])  # returns 2

您需要访问最后一个索引,例如:

df['STATUS'] = df.QUOTE.str.rsplit('TEST').str[-1]
print(df)

Output

         DATE               QUOTE  SOURCE STATUS
0  2019-11-21  1ºTEST/2ºTEST DONE  KAGGLE   DONE

或者如果您想使用 apply,只需更改 split 的定义:

split = lambda x: x['QUOTE'].rsplit('TEST', 1)[-1]
df["STATUS"] = df.apply(split, axis=1)
print(df)

Output

         DATE               QUOTE  SOURCE STATUS
0  2019-11-21  1ºTEST/2ºTEST DONE  KAGGLE   DONE

请注意,使用 lambda 创建命名函数不是很好的做法。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM