[英]When to set hive parameters during a session?
我是新角色,其中一部分需要在托管和外部 hive 表中創建/插入數據。 我們在 hive session 的開頭運行了幾行“設置”參數,但我遇到了一些情況,例如,文件被合並用於某些分區(文件數量很少),但不是其他人(許多較小的文件),似乎是隨機的日子。
我的問題是:什么時候需要輸入我所有的 Hive 設置參數? 是否需要為我正在運行的每一個插入/命令/語句完成? 或者當我啟動 Hive 時,僅在 Hive session 的開頭一次?
這些是我們一直在使用的標准設置參數:
SET mapred.job.queue.name=yometrics;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions=2000;
SET hive.exec.max.dynamic.partitions.pernode=2000;
SET hive.merge.tezfiles=true;
您可以將配置放在文件的開頭,它將適用於整個 session。
或者,您可以將公共參數放在單獨的文件params.hql
和每個腳本調用中
source /local/path/to/the/file/params.hql
在開頭。
你也可以把它們放在hive-site.xml
如果您在 Qubole/AWS 上,您也可以使用 bootstrap: https://docs.qubole.com/en/latest/user-guide/hive/bootstrap-script.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.