簡體   English   中英

更改由 java.sql.Timestamp 分區的文件路徑格式

[英]Change the format of file path which is partitioned by java.sql.Timestamp

我們使用 spark 作為數據處理平台和 Scala 編程語言。 當我們在存儲帳戶(ADLS gen 2)上寫入數據時,我們按類型為 java.sql.Timestamp 的日期時間列對數據進行分區。 我們使用 spark dataframe.write 操作寫入數據

默認情況下,它會在存儲帳戶上創建以下路徑並在其中寫入 parquet 文件

路徑 - a/b/c/__datetime=yyyy-MM-dd HH%3Amm%3Ass

問題是,它已經編碼:但不是空間,因為 URL 沒有完全編碼,它給我們帶來了問題。 有解決這個問題的方法嗎?

我可以更改列的格式(類型為 java.sql.Timestamp),以便 output 文件路徑看起來像這樣,沒有任何編碼?

a/b/c/yyyy-MM-dd-HH-mm-ss 

或者

a/b/c/yyyy_MM_dd_HH_mm_ss

是否可以在 java.sql.Timestamp object 中執行此操作而不將其轉換為字符串?

謝謝

您可以使用簡單的 select + 別名更改名稱/類型 dataframe 列。 不過,Spark 本身並不支持 java.sql.Timestamp 的模式。 我認為您不能從 output 中刪除 dataframe 分區列名

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM