[英]How to filter dataframe based on values in pyspark/python?
我有一個如下所示的 dataframe。 我想讀取 dataframe 並根據開始時間過濾記錄並存儲在不同的數據框中。
輸入方向
name start_time
AA 2022-11-16
AAA 2022-11-15
BBB 2022-11-14
例如:我需要根據開始時間存儲每條記錄,這意味着所有,第 16 個日期開始時間記錄應該 go 到一個 dataframe 等等。
OUTPUT 東風
df1 = ["Store 2022-11-16 record"]
df2 = ["Store 2022-11-15 record"]
df3 = ["Store 2022-11-14 record"]
好吧,技術上是重復的,但我不知道如何報告,但我認為這可行:
df = pd.DataFrame({"name" : ["AA", "AAA", "BBB"],
"start_time" : ["2022-11-16"," 2022-11-15", "2022-11-14"]})
dfs = dict(tuple(df.groupby('start_time')))
dfs
你可以 select 每個 DataFrame 由開始時間:
print (dfs['2022-11-14''])
name start_time
2 BBB 2022-11-14
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.