將 Python 代碼轉換為 pyspark 環境

Question

導入 pandas 作為 pd

temp = pd.DataFrame(data=[['a',0],['a',0],['a',0],['b',0],['b',1],[ 'b',1],['c',1],['c',0],['c',0]], 列=['ID','X'])

temp['transformed'] = temp.groupby('ID').apply(lambda x: (x["X"].shift().= x["X"]).cumsum()).reset_index() ['X'] 打印（溫度）

我的問題是如何在 pyspark 中實現。

提前致謝

Answer 1

Pyspark 已使用 Windows 實用功能處理這些類型的查詢。 你可以在這里閱讀它的文檔

您的 pyspark 代碼將是這樣的：

window = W.partitionBy('id').orderBy('time'?)
new_df = (
    df
    .withColumn('shifted', F.lag('X').over(window))
    .withColumn('cumsum', F.sum('X').over(window))
    .filter(F.col('shifted') != F.col('cumsum'))
)

將 Python 代碼轉換為 pyspark 環境

問題描述

1 個解決方案

解決方案1
0 已采納 2022-09-18 07:18:44

將 Python 代碼轉換為 pyspark 環境

問題描述

1 個解決方案

解決方案1 0 已采納 2022-09-18 07:18:44

解決方案1
0 已采納 2022-09-18 07:18:44