[英]hadoop - Validate json data loaded into hive warehouse
我有json文件,容量约为500 TB。 我已将完整集加载到hive数据仓库中。
我如何validate or test the data
加载到hive仓库validate or test the data
。 我的testing strategy
应该是什么?
客户希望我们验证json数据。 加载到配置单元中的数据是否正确。 有没有错过? 如果是,那是哪个领域?
请帮忙。
您的数据如何存储在配置单表中?
一个选项是创建一个Hive UDF函数,该函数接收JSON字符串并验证数据并返回带有错误消息的另一个字符串,如果JSON字符串格式正确,则返回空字符串。
这是一个Hve UDF教程: http ://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html
使用Hive UDF功能,您可以执行以下查询:
select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.