簡體   English   中英

PySpark:為所有日期創建 dataframe 的子集

[英]PySpark: Create a subset of a dataframe for all dates

我有一個 DataFrame 有很多列,我需要創建一個只有日期值的 DataFrame 的子集。

例如,我的 Dataframe 可以是:

1, 'John Smith', '12/10/1982', '123 Main St', '01/01/2000'
2, 'Jane Smith', '11/21/1999', 'Abc St', '12/12/2020'

而我的新 DataFrame 應該只有:

'12/10/1982', '01/01/2000'
'11/21/1999', '12/12/2000'

日期可以是任何格式,並且可以在任何列上。 我可以使用 dateutil.parser 來解析它們以確保它們是日期。 但不確定如何在所有列上調用 parse() 並僅將那些返回 true 的列過濾到另一個 dataframe,輕松。

如果您知道日期時間所在的列,則很容易:

pd2 = pd[["row_name_1", "row_name_2"]]
# or 
pd2 = pd.iloc[:, [2, 4]]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM