如何在多个数据框lambda函数上实现dask mappartitions？

Question

我仅使用熊猫就实现了两个数据框之间的模糊字符串匹配算法。 我的问题是如何将其转换为使用多个内核的轻松操作？ 我的程序在纯python上运行大约3-4天，我想并行化操作以优化时间成本。 我已经使用多处理程序包通过以下代码提取内核数：

numCores = multiprocessing.cpu_count()

fields = ['id','phase','new']
emb = pd.read_csv('my_csv.csv', skipinitialspace=True, usecols=fields)

然后，我必须根据与每个字符串关联的数值将数据框emb细分为两个数据框（emb1，emb2）。 就像我通过匹配的字符串将一个数据帧的所有元素的值都为3的值与另一个数据帧中的对应值2进行匹配一样.pandas操作的代码如下。

emb1 = emb[emb.phase.isin([3.0])]
emb1.set_index('id',inplace=True)

emb2 = emb[emb.phase.isin([2.0,1.5])]
emb2.set_index('id',inplace=True)

def fuzzy_match(x, choices, scorer, cutoff):
return process.extractOne(x, choices=choices, scorer=scorer, score_cutoff=cutoff)

FuzzyWuzzyResults = pd.DataFrame(emb1.sort_index().loc[:,'strings'].apply(fuzzy_match, args = (emb2.loc[:,'strings'],fuzz.ratio,90)))

我有点尝试使用以下代码来实现一个简单的实现：

emb1 = dd.from_pandas(emb1, npartitions=numCores)
emb2 = dd.from_pandas(emb2, npartitions=numCores)

但是为两个数据帧运行lambda函数使我感到困惑。 有任何想法吗？

Answer 1

因此，我只修复了代码以删除数据帧的手动分区，而是使用了groupby。

这是代码：

for i in [2.0,1.5]:
    FuzzyWuzzyResults = emb.map_partitions(lambda df: df.groupby('phase').get_group(3.0)['drugs'].apply(fuzzy_match, args=(df.groupby('phase').get_group(i)['drugs'],fuzz.ratio,90)), meta=('results')).compute()

不知道它是否准确，但是至少它正在运行，并且在所有CPU内核上也是如此。

如何在多个数据框lambda函数上实现dask mappartitions？

问题描述

1 个解决方案

解决方案1
0 2018-05-18 22:52:16

如何在多个数据框lambda函数上实现dask mappartitions？

问题描述

1 个解决方案

解决方案1 0 2018-05-18 22:52:16

解决方案1
0 2018-05-18 22:52:16