在熊貓中將字符串/數字數據轉換為分類格式

Question

我有一個非常大的csv文件，已將其轉換為Pandas數據幀，該數據幀具有字符串和整數/浮點值。 我想將此數據更改為分類格式，以嘗試節省一些內存。 我將這個想法基於以下文檔： https : //pandas.pydata.org/pandas-docs/version/0.20/categorical.html

我的數據框如下所示：

    clean_data_measurements.head(20)

        station         date    prcp    tobs
    0   USC00519397 1/1/2010    0.08    65
    1   USC00519397 1/2/2010    0.00    63
    2   USC00519397 1/3/2010    0.00    74
    3   USC00519397 1/4/2010    0.00    76
    5   USC00519397 1/7/2010    0.06    70
    6   USC00519397 1/8/2010    0.00    64
    7   USC00519397 1/9/2010    0.00    68
    8   USC00519397 1/10/2010   0.00    73
    9   USC00519397 1/11/2010   0.01    64
    10  USC00519397 1/12/2010   0.00    61
    11  USC00519397 1/14/2010   0.00    66
    12  USC00519397 1/15/2010   0.00    65
    13  USC00519397 1/16/2010   0.00    68
    14  USC00519397 1/17/2010   0.00    64
    15  USC00519397 1/18/2010   0.00    72
    16  USC00519397 1/19/2010   0.00    66
    17  USC00519397 1/20/2010   0.00    66
    18  USC00519397 1/21/2010   0.00    69
    19  USC00519397 1/22/2010   0.00    67
    20  USC00519397 1/23/2010   0.00    67

這是降水量數據，另外還有2700行。 由於它們屬於同一類別（站號），因此應將其轉換為分類格式，這樣可以節省處理時間。 我只是不確定如何編寫代碼。 有人可以幫忙嗎？ 謝謝。

Answer 1

我認為我們可以通過使用factorize將對象轉換為類別數據

objectdf=df.select_dtypes(include='object')

df.loc[:,objectdf.columns]=objectdf.apply(lambda x : pd.factorize(x)[0])
df
Out[452]: 
    station  date  prcp  tobs
0         0     0  0.08    65
1         0     1  0.00    63
2         0     2  0.00    74
3         0     3  0.00    76
5         0     4  0.06    70
6         0     5  0.00    64
7         0     6  0.00    68
8         0     7  0.00    73
9         0     8  0.01    64
10        0     9  0.00    61
11        0    10  0.00    66
12        0    11  0.00    65
13        0    12  0.00    68
14        0    13  0.00    64
15        0    14  0.00    72
16        0    15  0.00    66
17        0    16  0.00    66
18        0    17  0.00    69
19        0    18  0.00    67
20        0    19  0.00    67

您也可以嘗試一下。

for y,x in zip(df.columns,df.dtypes):
    if x == 'object':
        df[y]=pd.factorize(df[y])[0]
    elif x=='int64':
        df[y]=df[y].astype(np.int8)
    else:
        df[y]=df[y].astype(np.float32)

在熊貓中將字符串/數字數據轉換為分類格式

問題描述

1 個解決方案

解決方案1
0 2018-07-17 02:48:33

在熊貓中將字符串/數字數據轉換為分類格式

問題描述

1 個解決方案

解決方案1 0 2018-07-17 02:48:33

解決方案1
0 2018-07-17 02:48:33