[英]hadoop - Validate json data loaded into hive warehouse
我有json文件,容量約為500 TB。 我已將完整集加載到hive數據倉庫中。
我如何validate or test the data
加載到hive倉庫validate or test the data
。 我的testing strategy
應該是什么?
客戶希望我們驗證json數據。 加載到配置單元中的數據是否正確。 有沒有錯過? 如果是,那是哪個領域?
請幫忙。
您的數據如何存儲在配置單表中?
一個選項是創建一個Hive UDF函數,該函數接收JSON字符串並驗證數據並返回帶有錯誤消息的另一個字符串,如果JSON字符串格式正確,則返回空字符串。
這是一個Hve UDF教程: http ://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html
使用Hive UDF功能,您可以執行以下查詢:
select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.