繁体   English   中英

Pyspark Dataframe 从具有当前日期的可变路径的 S3 读取

[英]Pyspark Dataframe read from S3 with variable path with current date

我想从 S3 读取一个带有当前日期和当前时间的 aws spark 作业的分区。 这条路径是否有可能用 current_date() 和 hour(current_timestamp()) 函数设置。

current_date -> 对于 ex 2022-09-07,current_hour -> 对于 ex 18

这取决于许多因素,也许您可以详细说明您的方法。 如果您想在上述代码中为 current_date 和 current_hours 提供值,请导入日期时间:

from datetime import datetime
now = datetime.now() --> 2022-10-01 07:58:56.550604

并为每个变量提供价值。

如果您想读取 S3 中基于日期、current_date 等分区的数据,请运行启用作业书签选项的粘合作业,这将仅从 S3 读取新添加的数据。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM