[英]Copy and unzip from S3 to HDFS
我在S3上有一些大的zip文件。 這些zip文件中的每一個都包含幾個gz文件,其中包含JSON格式的數據。 我需要(i)將gz文件復制到HDFS和(ii)優選地通過Apache Spark / Impala / Hive處理文件。 最簡單/最好的方法是什么?
1)嘗試使用distcp將文件從s3復制到HDFS
2)對於處理,使用“ org.apache.spark.sql.hive.HiveContext
”的read.json
從HDFS讀取JSON數據並創建數據幀。 然后對它進行任何操作。
請點擊此鏈接, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.