簡體   English   中英

如何根據字段將數據從 CSV 加載到單獨的 Hadoop HDFS 目錄中

[英]How to Load data from CSV into separate Hadoop HDFS directories based on fields

我有一個 CSV 數據,我需要根據某個字段(年份)將其加載到 HDFS 目錄中。 我打算使用Java。 我已經看過使用 BufferedReader 但是我在實現它時遇到了麻煩。 這是用於此任務的最佳方法還是有更好的方法?

使用 Spark 將 CSV 讀入數據幀。

在寫入 HDFS 期間使用partitionBy("year") ,它將在以year=開頭的路徑下為每個唯一值創建子文件夾。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM