Python：df['Col'].apply(lambda row: len(row)) 和 df.apply(lambda row: len(row['Col']), axis=1) 有什么区别？

Question

df = pd.DataFrame([['user1', 'Hey whats up I am Rob', 73],
                    ['user2', 'Hey whats up I am Bob', 44],
                    ['user3', 'Hey whats up I am a Snob', 12]],
                    columns=['User', 'Text', 'Age'])

#Method 1
df['TextLen'] = df['Text'].apply(lambda row: len(row))

#Method 2
df['TextLen2'] = df.apply(lambda row: len(row['Text']), axis=1)

print(df)

结果：

   User                      Text  Age  TextLen  TextLen2
0  user1     Hey whats up I am Rob   73       21        21
1  user2     Hey whats up I am Bob   44       21        21
2  user3  Hey whats up I am a Snob   12       24        24

方法一和方法二有什么区别？

哪个更 Pythonic / 我应该在大型数据集上使用哪个？

Answer 1

在jupyter notebook中使用%%timeit魔法，我对你的两种方法中的每一种都进行了计时。 方法一比方法二快很多。

我还发现列表理解的速度是方法 1 的两倍。请参见下面的方法 3...

方法 1（更快）

%%timeit
df['TextLen'] = df['Text'].apply(lambda row: len(row))
#434 µs ± 6.73 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

方法 2（较慢）

%%timeit
df['TextLen2'] = df.apply(lambda row: len(row['Text']), axis=1)
#1.24 ms ± 19.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

方法 3（最快）

%%timeit
df['TextLen3'] = [len(i) for i in df['Text']]
#202 µs ± 4.48 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

方法 4（快速但可读）

%%timeit
df['TextLen4'] = df['Text'].str.len()
#525 µs ± 53.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

我在您运行这些测试时使用了样本示例数据。

编辑 1：我尝试了第三种方法并认为它更快，然后才意识到它不起作用。 我已将其从答案中删除。

编辑 2：我尝试了列表理解方法（方法 3）并确定它有效，所以我将其添加到答案中

编辑 3：在 OP 评论中建议的方法（方法 4）中添加

Python：df['Col'].apply(lambda row: len(row)) 和 df.apply(lambda row: len(row['Col']), axis=1) 有什么区别？

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-05-27 19:03:18

Python：df['Col'].apply(lambda row: len(row)) 和 df.apply(lambda row: len(row['Col']), axis=1) 有什么区别？

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-05-27 19:03:18

解决方案1
1 已采纳 2020-05-27 19:03:18