繁体   English   中英

复制并从S3解压缩到HDFS

[英]Copy and unzip from S3 to HDFS

我在S3上有一些大的zip文件。 这些zip文件中的每一个都包含几个gz文件,其中包含JSON格式的数据。 我需要(i)将gz文件复制到HDFS和(ii)优选地通过Apache Spark / Impala / Hive处理文件。 最简单/最好的方法是什么?

1)尝试使用distcp将文件从s3复制到HDFS

2)对于处理,使用“ org.apache.spark.sql.hive.HiveContext ”的read.json从HDFS读取JSON数据并创建数据帧。 然后对它进行任何操作。

请点击此链接, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM