PySpark：為所有日期創建 dataframe 的子集

Question

我有一個 DataFrame 有很多列，我需要創建一個只有日期值的 DataFrame 的子集。

例如，我的 Dataframe 可以是：

1, 'John Smith', '12/10/1982', '123 Main St', '01/01/2000'
2, 'Jane Smith', '11/21/1999', 'Abc St', '12/12/2020'

而我的新 DataFrame 應該只有：

'12/10/1982', '01/01/2000'
'11/21/1999', '12/12/2000'

日期可以是任何格式，並且可以在任何列上。 我可以使用 dateutil.parser 來解析它們以確保它們是日期。 但不確定如何在所有列上調用 parse() 並僅將那些返回 true 的列過濾到另一個 dataframe，輕松。

Answer 1

如果您知道日期時間所在的列，則很容易：

pd2 = pd[["row_name_1", "row_name_2"]]
# or 
pd2 = pd.iloc[:, [2, 4]]