簡體   English   中英

hadoop - 驗證加載到hive倉庫的json數據

[英]hadoop - Validate json data loaded into hive warehouse

我有json文件,容量約為500 TB。 我已將完整集加載​​到hive數據倉庫中。

我如何validate or test the data加載到hive倉庫validate or test the data 我的testing strategy應該是什么?

客戶希望我們驗證json數據。 加載到配置單元中的數據是否正確。 有沒有錯過? 如果是,那是哪個領域?

請幫忙。

您的數據如何存儲在配置單表中?

一個選項是創建一個Hive UDF函數,該函數接收JSON字符串並驗證數據並返回帶有錯誤消息的另一個字符串,如果JSON字符串格式正確,則返回空字符串。

這是一個Hve UDF教程: http ://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html

使用Hive UDF功能,您可以執行以下查詢:

select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM