繁体   English   中英

如何合并Excel工作表中的数据和hadoop中Google驱动器中的文件?

[英]How do I combine data from Excel sheet and files in my Google drive in hadoop?

我在Excel工作表中有学生的详细信息,并且在驱动器中有他们各自的文件。 我应该如何使用Hadoop合并数据,以便分析和得出结果?

Excel不是数据库,因此,除非您的文件位于HDFS上(理想情况下是诸如Parquet之类的单独格式),或者将其转换为正确的数据库,否则无法直接从Hadoop框架中查询它。

选项1)将Excel导出为CSV,然后上传到Hadoop并从那里继续

选项2)使用Apache POI(Java)或Pandas(Python)Excel库并与Hive自己集成,假设这就是您在这里所说的“ Hadoop”。

选项3) 使用Spark-Excel


请注意,除非您有超过100GB(较大的随机数)的学生数据,否则最好使用MySQL或Postgres

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM