繁体   English   中英

在 Pandas DataFrame 中转换列值的最有效方法

[英]Most efficient way to convert values of column in Pandas DataFrame

我有一个 pd.DataFrame 看起来像:

在此处输入图片说明

我想在值上创建一个截止值以将它们推入二进制数字,在这种情况下我的截止值是0.85 我希望生成的数据框看起来像:

在此处输入图片说明

我为此编写的脚本很容易理解,但对于大型数据集来说效率很低。 我确信 Pandas 有某种方法来处理这些类型的转换。

有谁知道使用阈值将一列浮点数转换为一列整数的有效方法?

我做这种事情的极其天真的方式:

DF_test = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0.12,0.23,0.93,0.86,0.33]]).T,columns=["c1","c2","value"])
DF_want = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0,0,1,1,0]]).T,columns=["c1","c2","value"])


threshold = 0.85

#Empty dataframe to append rows
DF_naive = pd.DataFrame()
for i in range(DF_test.shape[0]):
    #Get first 2 columns
    first2cols = list(DF_test.ix[i][:-1])
    #Check if value is greater than threshold
    binary_value = [int((bool(float(DF_test.ix[i][-1]) > threshold)))]
    #Create series object
    SR_row = pd.Series( first2cols + binary_value,name=i)
    #Add to empty dataframe container
    DF_naive = DF_naive.append(SR_row)
#Relabel columns
DF_naive.columns = DF_test.columns
DF_naive.head()
#the sample DF_want

您可以使用np.where根据布尔条件设置所需的值:

In [18]:
DF_test['value'] = np.where(DF_test['value'] > threshold, 1,0)
DF_test

Out[18]:
  c1 c2  value
0  a  p      0
1  b  q      0
2  c  r      1
3  d  s      1
4  e  t      0

请注意,由于您的数据是异构 np 数组,因此“值”列包含字符串而不是浮点数:

In [58]:
DF_test.iloc[0]['value']

Out[58]:
'0.12'

所以你需要将转换dtypefloat第一: DF_test['value'] = DF_test['value'].astype(float)

您可以比较时间:

In [16]:
%timeit np.where(DF_test['value'] > threshold, 1,0)
1000 loops, best of 3: 297 µs per loop

In [17]:
%%timeit
DF_naive = pd.DataFrame()
for i in range(DF_test.shape[0]):
    #Get first 2 columns
    first2cols = list(DF_test.ix[i][:-1])
    #Check if value is greater than threshold
    binary_value = [int((bool(float(DF_test.ix[i][-1]) > threshold)))]
    #Create series object
    SR_row = pd.Series( first2cols + binary_value,name=i)
    #Add to empty dataframe container
    DF_naive = DF_naive.append(SR_row)
10 loops, best of 3: 39.3 ms per loop

np.where版本快了 100 倍以上,诚然您的代码做了很多不必要的事情,但您明白了

由于boolint的子类,即True == 1False == 0 ,您可以将布尔系列转换为其整数形式:

DF_test['value'] = (DF_test['value'] > threshold).astype(int)

通常,包括计算或索引中的大多数用途, int转换不是必需的,您可能希望完全放弃它。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM