[英]Python: Optimise the function to find frequent itemsets of size k given candidate itemsets
算法 0 (參見下面的其他算法)
使用Numba實現了算法的提升。 Numba 是一個JIT編譯器,它將 Python 代碼轉換為高度優化的 C++ 代碼,然后編譯為機器代碼。 對於許多算法,Numba 實現了 50-200 倍的速度提升。
要使用 numba,您必須通過pip install numba
安裝它,注意 Numba 僅支持 Python <= 3.8,對於 3.9,它尚未發布!
我已經稍微重寫了你的代碼以滿足 Numba 編譯要求,我的代碼在行為上應該與你的相同,請做一些測試。
我的 numba 優化代碼應該會給你很好的加速!
我也創建了一些人工的簡短示例輸入數據,以進行測試。
import numba, numpy as np, pandas as pd
@numba.njit(cache = True)
def selectLkNm(dataSet,Ck,minSupport):
dict_data = {}
transactions = dataSet.shape[0]
for items in Ck:
count = 0
while count < transactions:
if items not in dict_data:
dict_data[items] = 0
for item in items:
for e in dataSet[count, :]:
if item == e:
break
else:
break
else:
dict_data[items] += 1
count += 1
Lk = {}
for k, v in dict_data.items():
if v >= minSupport:
Lk[k] = v
return Lk
def selectLk(dataSet, Ck, minSupport):
tCk = numba.typed.List()
for e in Ck:
tCk.append(e)
return selectLkNm(dataSet.values, tCk, minSupport)
dataset = pd.DataFrame([[100,160,100,160],[170,180,190,200],[100,160,190,200]])
C1 = set()
C1.add((100, 160))
C1.add((170, 180))
C1.add((190, 200))
Lk = selectLk(dataset, C1, 2)
print(Lk)
Output:
{(100, 160): 2, (190, 200): 2}
算法 1 (參見下面的其他算法)
我通過對數據進行排序改進了算法 0(上圖),如果 Ck 中有很多值或者 Ck 中的每個元組都很長,它將提供很好的加速。
import numba, numpy as np, pandas as pd
@numba.njit(cache = True)
def selectLkNm(dataSet,Ck,minSupport):
assert dataSet.ndim == 2
dataSet2 = np.empty_like(dataSet)
for i in range(dataSet.shape[0]):
dataSet2[i] = np.sort(dataSet[i])
dataSet = dataSet2
dict_data = {}
transactions = dataSet.shape[0]
for items in Ck:
count = 0
while count < transactions:
if items not in dict_data:
dict_data[items] = 0
for item in items:
ix = np.searchsorted(dataSet[count, :], item)
if not (ix < dataSet.shape[1] and dataSet[count, ix] == item):
break
else:
dict_data[items] += 1
count += 1
Lk = {}
for k, v in dict_data.items():
if v >= minSupport:
Lk[k] = v
return Lk
def selectLk(dataSet, Ck, minSupport):
tCk = numba.typed.List()
for e in Ck:
tCk.append(e)
return selectLkNm(dataSet.values, tCk, minSupport)
dataset = pd.DataFrame([[100,160,100,160],[170,180,190,200],[100,160,190,200]])
C1 = set()
C1.add((100, 160))
C1.add((170, 180))
C1.add((190, 200))
Lk = selectLk(dataset, C1, 2)
print(Lk)
Output:
{(100, 160): 2, (190, 200): 2}
算法 2 (參見下面的其他算法)
如果您不允許使用 Numba,那么我建議您對算法進行下一步改進。 我對您的數據集進行了預先排序,以便在O(N)
時間內而不是在O(Log(N))
時間內搜索每個項目,這要快得多。
I see in your code you used pandas dataframe, it means you have installed pandas, and if you installed pandas then you definitely have Numpy, so I decided to use it. 如果您正在處理 pandas dataframe,則不能沒有 Numpy。
import numpy as np, pandas as pd, collections
def selectLk(dataSet,Ck,minSupport):
dataSet = np.sort(dataSet.values, axis = 1)
dict_data = collections.defaultdict(int)
transactions = dataSet.shape[0]
for items in Ck:
count = 0
while count < transactions:
for item in items:
ix = np.searchsorted(dataSet[count, :], item)
if not (ix < dataSet.shape[1] and dataSet[count, ix] == item):
break
else:
dict_data[items] += 1
count += 1
Lk = {k : v for k, v in dict_data.items() if v >= minSupport}
return Lk
dataset = pd.DataFrame([[100,160,100,160],[170,180,190,200],[100,160,190,200]])
C1 = set()
C1.add((100, 160))
C1.add((170, 180))
C1.add((190, 200))
Lk = selectLk(dataset, C1, 2)
print(Lk)
Output:
{(100, 160): 2, (190, 200): 2}
算法 3
我只是有一個想法,算法 2 的排序部分可能不是瓶頸,可能事務 while 循環可能是瓶頸。
因此,為了改善情況,我決定使用 2D searchsorted 版本實現並使用更快的算法(沒有內置的 2D 版本,因此必須單獨實現),大多數時候沒有任何長的純 python 循環用在 Numpy 函數中。
請嘗試這個算法 3 是否會更快,如果排序不是瓶頸而是內部 while 循環,它應該會更快。
import numpy as np, pandas as pd, collections
def selectLk(dataSet, Ck, minSupport):
def searchsorted2d(a, bs):
s = np.r_[0, (np.maximum(a.max(1) - a.min(1) + 1, bs.ravel().max(0)) + 1).cumsum()[:-1]]
a_scaled = (a + s[:, None]).ravel()
def sub(b):
b_scaled = b + s
return np.searchsorted(a_scaled, b_scaled) - np.arange(len(s)) * a.shape[1]
return sub
assert dataSet.values.ndim == 2, dataSet.values.ndim
dataSet = np.sort(dataSet.values, axis = 1)
dict_data = collections.defaultdict(int)
transactions = dataSet.shape[0]
Ck = np.array(list(Ck))
assert Ck.ndim == 2, Ck.ndim
ss = searchsorted2d(dataSet, Ck)
for items in Ck:
cnts = np.zeros((dataSet.shape[0],), dtype = np.int64)
for item in items:
bs = item.repeat(dataSet.shape[0])
ixs = np.minimum(ss(bs), dataSet.shape[1] - 1)
cnts[...] += (dataSet[(np.arange(dataSet.shape[0]), ixs)] == bs).astype(np.uint8)
dict_data[tuple(items)] += int((cnts == len(items)).sum())
return {k : v for k, v in dict_data.items() if v >= minSupport}
dataset = pd.DataFrame([[100,160,100,160],[170,180,190,200],[100,160,190,200]])
C1 = set()
C1.add((100, 160))
C1.add((170, 180))
C1.add((190, 200))
Lk = selectLk(dataset, C1, 2)
print(Lk)
Output:
{(100, 160): 2, (190, 200): 2}
我已經更改了您的代碼的執行順序。 但是,由於我無法訪問您的實際輸入數據,因此很難檢查優化后的代碼是否產生預期的輸出以及您獲得了多少速度。
import pandas as pd
import numpy as np
from collections import defaultdict
def selectLk(dataSet,Ck,minSupport):
dict_data = defaultdict(int)
for _, row in dataSet.iterrows():
for items in Ck:
dict_data[items] += all(item in row.values for item in items)
Lk = { k : v for k,v in dict_data.items() if v > minSupport}
return Lk
if __name__ == '__main__':
data = list(range(0, 1000, 10))
df_data = {}
for i in range(26):
sample = np.random.choice(data, size=16000, replace=True)
df_data[f"d{i}"] = sample
dataset = pd.DataFrame(df_data)
C1 = set()
C1.add((100, 160))
C1.add((170, 180))
C1.add((190, 200))
Lk1 = selectLk(dataset, C1, 1)
dataset = pd.DataFrame([[100,160,100,160],[170,180,190,200],[100,160,190,200]])
Lk2 = selectLk(dataset, C1, 1)
print(Lk1)
print(Lk2)
算法 1 使用numpy.equal.outer
,它創建 Ck 元組中任何匹配元素的 boolean 掩碼。 然后,應用.all()
操作。
def selectLk(dataSet, Ck, minSupport):
dict_data = defaultdict(int)
dataSet_np = dataSet.to_numpy(copy=False)
for items in Ck:
dict_data[items] = dataSet[np.equal.outer(dataSet_np, items).any(axis=1).all(axis=1)].shape[0]
Lk = { k : v for k, v in dict_data.items() if v > minSupport}
return Lk
結果:
{(190, 200): 811, (170, 180): 797, (100, 160): 798}
{(190, 200): 2, (100, 160): 2}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.