如何確定熊貓數據框列中列表的長度

Question

如何在不迭代的情況下確定列中列表的長度？

我有一個這樣的數據框：

                                                    CreationDate
2013-12-22 15:25:02                  [ubuntu, mac-osx, syslinux]
2009-12-14 14:29:32  [ubuntu, mod-rewrite, laconica, apache-2.2]
2013-12-22 15:42:00               [ubuntu, nat, squid, mikrotik]

我正在計算CreationDate列中列表的長度並創建一個新的Length列，如下所示：

df['Length'] = df.CreationDate.apply(lambda x: len(x))

這給了我這個：

                                                    CreationDate  Length
2013-12-22 15:25:02                  [ubuntu, mac-osx, syslinux]       3
2009-12-14 14:29:32  [ubuntu, mod-rewrite, laconica, apache-2.2]       4
2013-12-22 15:42:00               [ubuntu, nat, squid, mikrotik]       4

有沒有更pythonic的方法來做到這一點？

Answer 1

您也可以將str訪問器用於某些列表操作。 在這個例子中，

df['CreationDate'].str.len()

返回每個列表的長度。 請參閱str.len的文檔。

df['Length'] = df['CreationDate'].str.len()
df
Out: 
                                                    CreationDate  Length
2013-12-22 15:25:02                  [ubuntu, mac-osx, syslinux]       3
2009-12-14 14:29:32  [ubuntu, mod-rewrite, laconica, apache-2.2]       4
2013-12-22 15:42:00               [ubuntu, nat, squid, mikrotik]       4

對於這些操作，vanilla Python 通常更快。 熊貓雖然處理 NaN。 以下是時間安排：

ser = pd.Series([random.sample(string.ascii_letters, 
                               random.randint(1, 20)) for _ in range(10**6)])

%timeit ser.apply(lambda x: len(x))
1 loop, best of 3: 425 ms per loop

%timeit ser.str.len()
1 loop, best of 3: 248 ms per loop

%timeit [len(x) for x in ser]
10 loops, best of 3: 84 ms per loop

%timeit pd.Series([len(x) for x in ser], index=ser.index)
1 loop, best of 3: 236 ms per loop

Answer 2

pandas.Series.map(len)和pandas.Series.apply(len)的執行時間相同，比pandas.Series.str.len()稍快。
Pandas 中 map、applymap 和 apply 方法的區別

import pandas as pd

data = {'os': [['ubuntu', 'mac-osx', 'syslinux'], ['ubuntu', 'mod-rewrite', 'laconica', 'apache-2.2'], ['ubuntu', 'nat', 'squid', 'mikrotik']]}
index = ['2013-12-22 15:25:02', '2009-12-14 14:29:32', '2013-12-22 15:42:00']

df = pd.DataFrame(data, index)

# create Length column
df['Length'] = df.os.map(len)

# display(df)
                                                              os  Length
2013-12-22 15:25:02                  [ubuntu, mac-osx, syslinux]       3
2009-12-14 14:29:32  [ubuntu, mod-rewrite, laconica, apache-2.2]       4
2013-12-22 15:42:00               [ubuntu, nat, squid, mikrotik]       4

`%timeit`

import pandas as pd
import random
import string

random.seed(365)

ser = pd.Series([random.sample(string.ascii_letters, random.randint(1, 20)) for _ in range(10**6)])

%timeit ser.str.len()
252 ms ± 12.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit ser.map(len)
220 ms ± 7.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit ser.apply(len)
222 ms ± 8.31 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

如何確定熊貓數據框列中列表的長度

問題描述

2 個解決方案

解決方案1
120 已采納 2016-12-27 07:03:41

解決方案2
10 2020-09-13 18:18:20

`%timeit`

如何確定熊貓數據框列中列表的長度

問題描述

2 個解決方案

解決方案1 120 已采納 2016-12-27 07:03:41

解決方案2 10 2020-09-13 18:18:20

%timeit

解決方案1
120 已采納 2016-12-27 07:03:41

解決方案2
10 2020-09-13 18:18:20

`%timeit`