[英]Change the format of file path which is partitioned by java.sql.Timestamp
我們使用 spark 作為數據處理平台和 Scala 編程語言。 當我們在存儲帳戶(ADLS gen 2)上寫入數據時,我們按類型為 java.sql.Timestamp 的日期時間列對數據進行分區。 我們使用 spark dataframe.write 操作寫入數據
默認情況下,它會在存儲帳戶上創建以下路徑並在其中寫入 parquet 文件
路徑 - a/b/c/__datetime=yyyy-MM-dd HH%3Amm%3Ass
問題是,它已經編碼:但不是空間,因為 URL 沒有完全編碼,它給我們帶來了問題。 有解決這個問題的方法嗎?
我可以更改列的格式(類型為 java.sql.Timestamp),以便 output 文件路徑看起來像這樣,沒有任何編碼?
a/b/c/yyyy-MM-dd-HH-mm-ss
或者
a/b/c/yyyy_MM_dd_HH_mm_ss
是否可以在 java.sql.Timestamp object 中執行此操作而不將其轉換為字符串?
謝謝
您可以使用簡單的 select + 別名更改名稱/類型 dataframe 列。 不過,Spark 本身並不支持 java.sql.Timestamp 的模式。 我認為您不能從 output 中刪除 dataframe 分區列名
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.