簡體   English   中英

復制並從S3解壓縮到HDFS

[英]Copy and unzip from S3 to HDFS

我在S3上有一些大的zip文件。 這些zip文件中的每一個都包含幾個gz文件,其中包含JSON格式的數據。 我需要(i)將gz文件復制到HDFS和(ii)優選地通過Apache Spark / Impala / Hive處理文件。 最簡單/最好的方法是什么?

1)嘗試使用distcp將文件從s3復制到HDFS

2)對於處理,使用“ org.apache.spark.sql.hive.HiveContext ”的read.json從HDFS讀取JSON數據並創建數據幀。 然后對它進行任何操作。

請點擊此鏈接, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM