繁体   English   中英

hadoop - 验证加载到hive仓库的json数据

[英]hadoop - Validate json data loaded into hive warehouse

我有json文件,容量约为500 TB。 我已将完整集加载​​到hive数据仓库中。

我如何validate or test the data加载到hive仓库validate or test the data 我的testing strategy应该是什么?

客户希望我们验证json数据。 加载到配置单元中的数据是否正确。 有没有错过? 如果是,那是哪个领域?

请帮忙。

您的数据如何存储在配置单表中?

一个选项是创建一个Hive UDF函数,该函数接收JSON字符串并验证数据并返回带有错误消息的另一个字符串,如果JSON字符串格式正确,则返回空字符串。

这是一个Hve UDF教程: http ://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html

使用Hive UDF功能,您可以执行以下查询:

select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM