將 function 應用於 dask dataframe 中的列的最有效方法是什么？

Question

我有一個 function 可以標記元組中的單詞：

def get_word_tokens(tokens):
    words = [token[0] for token in tokens]
    return words

我想將此應用於 dask dataframe 中的列並創建一個新列，例如

df1

    #phrase               tokens  
0   call CHRIS MOBILE.    [(call, 0, 4), 
                          (CHRIS, 5, 10), 
                          (MOBILE, 11, 17)]
1   call Tod Sarks        [(call, 0, 4), 
                          (Tod, 5, 8), 
                          (arks, 9, 14)]

創建列詞

df1

    #phrase               tokens               words
0   call CHRIS MOBILE.    [(call, 0, 4),       call, CHRIS, MOBILE
                          (CHRIS, 5, 10), 
                          (MOBILE, 11, 17)]
1   call Tod Sarks        [(call, 0, 4),       call, Tod, Sarks
                          (Tod, 5, 8), 
                          (Sarks, 9, 14)]

我努力了：

df['words'] = df.apply(lambda row: get_word_tokens(df['tokens']), axis = 1)

這似乎有效，但需要很長時間才能運行？ 有沒有更快的方法？

Answer 1

您將df['tokens']傳遞給 function，這是完整的列。 這應該有效：

def get_word_tokens(tokens):
    words = [token[0] for token in tokens]
    return words

data = [
    ['call CHRIS MOBILE.', [('call', 0, 4), 
                          ('CHRIS', 5, 10), 
                          ('MOBILE', 11, 17)]],
    ['call Tod Sarks', [('call', 0, 4), 
                          ('Tod', 5, 8), 
                          ('arks', 9, 14)]],
]

import pandas as pd
df = pd.DataFrame(data, columns=['phrase', 'tokens'])
df = pd.concat([df,df,df,df, df, df])

import dask.dataframe as dd
ddf = dd.from_pandas(df, npartitions=2)

def get_word_tokens_df(df):
    df['words'] = df['tokens'].apply(get_word_tokens)
    return df


ddf = ddf.map_partitions(get_word_tokens_df)
ddf.compute()

Answer 2

嘗試這個：

df.join(df['tokens'].str.extractall(r'([A-Za-z]\w+)').groupby(level=0).agg(','.join).squeeze().rename('words'))

將 function 應用於 dask dataframe 中的列的最有效方法是什么？

問題描述

2 個解決方案

解決方案1
1 已采納 2021-03-08 18:35:36

解決方案2
1 2021-03-08 18:44:26

將 function 應用於 dask dataframe 中的列的最有效方法是什么？

問題描述

2 個解決方案

解決方案1 1 已采納 2021-03-08 18:35:36

解決方案2 1 2021-03-08 18:44:26

解決方案1
1 已采納 2021-03-08 18:35:36

解決方案2
1 2021-03-08 18:44:26