繁体   English   中英

Hive - 外部表和 csv 数据

[英]Hive - external tables and csv data

对于从 hive 理解参考数据的问题,我需要您的帮助。 以下情况:我有一个 CSV fil data.csv 导入到 hadoop 中。 现在我发现了许多使用外部表在 csv 文件之上创建模式的片段。 我的问题是,hive怎么知道外部表的schema连接到data.csv。 在示例中,我找不到对 csv 文件的引用。

此 hive 示例中引用的 sample_1.csv 在哪里使用,或者 hive 如何知道来自 sample_1.Z6328CB5675AFEE84 的数据包括数据?

在创建外部表时,我们必须提供列列表和 hdfs 位置。 Hive 将仅存储列元数据,如列名、数据类型……和 hdfs 位置。

当我们对外部表执行查询时,它将获取元数据,然后从 hdfs 位置获取可用文件。

现在我们得到了答案。 手册建议将一个文件存储在一个目录中。 然后当我们在顶部构建一个外部表时,似乎数据是由模式标识的。

在我的测试用例中,我已经将 3 个 csv 文件与一个模式 2 文件获得了匹配的模式。 第三个文件多了一列。 如果我运行查询,则会显示所有三个文件的数据。 第三个文件中的附加列丢失了。

现在一切都很好-谢谢!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM