如何跨数据框的列使用pd.cut（）？

Question

>> df = pd.DataFrame(np.random.rand(10,4))
>> pd.cut(df,[0,0.5,1])

ValueError: Input array must be 1 dimensional

如何让pd.cut()在数据框的所有列上工作？

Answer 1

使用apply

df.apply(pd.cut, bins=[0,0.5,1])

如果要跨列（ axis=0 ）或行（ axis=1 ）运行，可以指定axis

Answer 2

如果你不介意稍微不同类型的标签， numpy.digitize提供了一个量化的nd方案。

np.digitize(df, bins=[0, 0.5, 1.0])

array([[2, 2, 2, 2],
       [1, 2, 2, 2],
       [1, 1, 2, 1],
       [2, 1, 2, 1],
       [2, 1, 2, 1],
       [2, 2, 2, 2],
       [1, 2, 1, 1],
       [2, 1, 2, 2],
       [2, 2, 1, 1],
       [2, 1, 2, 1]], dtype=int64)

标签1将对应于0-0.5 ， 2至0.5-1.0 ，等

性能

df = pd.DataFrame(np.random.rand(1000, 1000))

%timeit pd.DataFrame(np.digitize(df, bins=[0, 0.5, 1.0]), columns=df.columns)
13.2 ms ± 36.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit df.apply(pd.cut, bins=[0, 0.5, 1])
3.11 s ± 12.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit pd.cut(df.stack(),[0,0.5,1]).unstack()
1.48 s ± 3.82 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Answer 3

使用pd.cut只接受一个维度

df = pd.DataFrame(np.random.rand(10,4))
pd.cut(df[0],[0,0.5,1])

要么

df.apply(lambda x : pd.cut(x,[0,0.5,1]),1)

Answer 4

你可以堆叠和取消堆栈：

pd.cut(df.stack(),[0,0.5,1]).unstack()

结果：

            0           1           2           3
0  (0.5, 1.0]  (0.0, 0.5]  (0.5, 1.0]  (0.5, 1.0]
1  (0.0, 0.5]  (0.0, 0.5]  (0.5, 1.0]  (0.0, 0.5]
2  (0.5, 1.0]  (0.5, 1.0]  (0.5, 1.0]  (0.5, 1.0]

对于cut ，这种方式应该等同于逐列应用cut的其他答案。 但如果你使用qcut ，他们会给出不同的答案。 （哪种方式更可取决于你的情况。）

如何跨数据框的列使用pd.cut（）？

问题描述

4 个解决方案

解决方案1
5 已采纳 2019-04-29 17:18:00

解决方案2
5 2019-04-29 17:25:51

解决方案3
4 2019-04-29 17:17:39

解决方案4
3 2019-04-29 17:19:06

如何跨数据框的列使用pd.cut（）？

问题描述

4 个解决方案

解决方案1 5 已采纳 2019-04-29 17:18:00

解决方案2 5 2019-04-29 17:25:51

解决方案3 4 2019-04-29 17:17:39

解决方案4 3 2019-04-29 17:19:06

解决方案1
5 已采纳 2019-04-29 17:18:00

解决方案2
5 2019-04-29 17:25:51

解决方案3
4 2019-04-29 17:17:39

解决方案4
3 2019-04-29 17:19:06