簡體   English   中英

將 Python 代碼轉換為 pyspark 環境

[英]Converting Python code to pyspark environment

導入 pandas 作為 pd

temp = pd.DataFrame(data=[['a',0],['a',0],['a',0],['b',0],['b',1],[ 'b',1],['c',1],['c',0],['c',0]], 列=['ID','X'])

temp['transformed'] = temp.groupby('ID').apply(lambda x: (x["X"].shift().= x["X"]).cumsum()).reset_index() ['X'] 打印(溫度)

我的問題是如何在 pyspark 中實現。

提前致謝

Pyspark 已使用 Windows 實用功能處理這些類型的查詢。 你可以在這里閱讀它的文檔

您的 pyspark 代碼將是這樣的:

window = W.partitionBy('id').orderBy('time'?)
new_df = (
    df
    .withColumn('shifted', F.lag('X').over(window))
    .withColumn('cumsum', F.sum('X').over(window))
    .filter(F.col('shifted') != F.col('cumsum'))
)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM