如何將數據框轉換為具有混合列類型的稀疏矩陣？

Question

我有以下格式的數據框：

df:

key   f1    f2
k1    10    a, b, c
k2    20    b, d
k3    15    NaN

f2列具有一袋單詞作為值。 我想將此數據幀轉換為稀疏矩陣，因為f2中的不同單詞多達數千個。 我期望的最終結果具有以下格式：

key    f1  f2.a  f2.b  f2.c  f2.d
k1     10   1     1     1     0
k2     20   0     1     0     1
k3     15   0     0     0     0

我可以弄清楚如何僅在key和f2字段之外獨立創建一個稀疏矩陣。 我首先融化f2列，因此得到以下數據框：

df1:
key  f2
k1   a
k1   b
k1   c
k2   b
k2   d

然后，我編碼f2，並使用sklearn.preprocessing包中的LabelEncoder編碼f2。 然后，我將創建一個稀疏矩陣，如下所示：

df1['trainrow'] = np.arrange(df1.shape[0])
sparse.csr_matrix((np.ones(df1.shape[0], (df1.trainrow, df1.f2_encoded)))

這通過對字段f2進行單次熱編碼來創建稀疏矩陣。 但是我不確定如何將其與數值字段f1連接起來。

Answer 1

您可以將concat與str.get_dummies和add_prefix ：

df = pd.concat([df[['key','f1']], df.f2.str.get_dummies(sep=', ').add_prefix('f2.')], axis=1)
print (df)
  key  f1  f2.a  f2.b  f2.c  f2.d
0  k1  10     1     1     1     0
1  k2  20     0     1     0     1
2  k3  15     0     0     0     0

在很大的不同值中， get_dummies非常慢，可以使用自定義函數f ：

def f(category_list):
    n_categories = len(category_list)
    return pd.Series(dict(zip(category_list, [1]*n_categories)))

#remove NaN rows and create list of values by split
df1 = df.f2.dropna().str.split(', ').apply(f).add_prefix('f2.')
df2 = pd.concat([df[['key','f1']], df1], axis=1)
#replace NaN to 0 by position from 3.column to end of df
df2.iloc[:, 2: ] = df2.iloc[:, 2: ].fillna(0).astype(int)
print (df2)
  key  f1  f2.a  f2.b  f2.c  f2.d
0  k1  10     1     1     1     0
1  k2  20     0     1     0     1
2  k3  15     0     0     0     0

時間：

In [256]: %timeit s.str.get_dummies(sep=', ')
1 loop, best of 3: 1min 16s per loop

In [257]: %timeit (s.dropna().str.split(', ').apply(f).fillna(0).astype(int))
1 loop, best of 3: 2.95 s per loop

計時代碼 ：

np.random.seed(100)
s = pd.DataFrame(np.random.randint(10000, size=(1000,1000))).astype(str).apply(', '.join, axis=1)
print (s)


df2 = s.str.get_dummies(sep=', ')
print (df2)

def f(category_list):
    n_categories = len(category_list)
    return pd.Series(dict(zip(category_list, [1]*n_categories)))

print (s.dropna().str.split(', ').apply(f).fillna(0).astype(int))

Answer 2

我已經找到了解決此問題的最佳方法，因此將其發布為我將來的參考和他人的答案：

由於數據量巨大，我只需要使用稀疏矩陣。

第一步是將單詞袋轉換為矢量格式。 我已經使用了CountVectorizer（為此，感謝@MaxU）：

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
df2 = vectorizer.fit_transform(df['f2'].str.replace(' ',''))

我想忽略空格，並使用逗號作為強制定界符。 我不知道該怎么做，所以我替換了空格，否則矢量化程序會在空格處拆分單詞。

這樣就將df1創建為稀疏矩陣。

然后將另一個字段f1轉換為另一個稀疏矩陣：

df1 = csr_matrix(df[['f1']].fillna(0))

然后使用hstack結合這兩個：sparseDF = hstack（（df1，df2），format ='csr'）

如何將數據框轉換為具有混合列類型的稀疏矩陣？

問題描述

2 個解決方案

解決方案1
2 已采納 2017-01-09 12:10:43

解決方案2
0 2017-01-12 06:33:07

如何將數據框轉換為具有混合列類型的稀疏矩陣？

問題描述

2 個解決方案

解決方案1 2 已采納 2017-01-09 12:10:43

解決方案2 0 2017-01-12 06:33:07

解決方案1
2 已采納 2017-01-09 12:10:43

解決方案2
0 2017-01-12 06:33:07