[英]Converting Python code to pyspark environment
導入 pandas 作為 pd
temp = pd.DataFrame(data=[['a',0],['a',0],['a',0],['b',0],['b',1],[ 'b',1],['c',1],['c',0],['c',0]], 列=['ID','X'])
temp['transformed'] = temp.groupby('ID').apply(lambda x: (x["X"].shift().= x["X"]).cumsum()).reset_index() ['X'] 打印(溫度)
我的問題是如何在 pyspark 中實現。
提前致謝
Pyspark 已使用 Windows 實用功能處理這些類型的查詢。 你可以在這里閱讀它的文檔
您的 pyspark 代碼將是這樣的:
window = W.partitionBy('id').orderBy('time'?)
new_df = (
df
.withColumn('shifted', F.lag('X').over(window))
.withColumn('cumsum', F.sum('X').over(window))
.filter(F.col('shifted') != F.col('cumsum'))
)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.