
[英]Can we exclude or include only particular file extensions from Databricks Autoloader?
[英]Can Databricks Autoloader Keep Track of File Uploading Time
是否可以使用 Databricks 自动加载器跟踪 S3 文件上传时间? 看起来 Autoloader 会为文件名和处理时间添加列,但在我们的用户案例中,我们需要知道文件上传到 S3 的顺序。
加载数据时,您可以查询_metadata
列(或其中的特定属性) - 它包括file_modification_time
字段,表示上次文件修改时间(应与上传时间匹配)。
做就是了:
df.select("*", "_metadata.file_modification_time")
访问该字段。 有关详细信息,请参阅文档。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.