簡體   English   中英

在 session 期間何時設置 hive 參數?

[英]When to set hive parameters during a session?

我是新角色,其中一部分需要在托管和外部 hive 表中創建/插入數據。 我們在 hive session 的開頭運行了幾行“設置”參數,但我遇到了一些情況,例如,文件被合並用於某些分區(文件數量很少),但不是其他人(許多較小的文件),似乎是隨機的日子。

我的問題是:什么時候需要輸入我所有的 Hive 設置參數? 是否需要為我正在運行的每一個插入/命令/語句完成? 或者當我啟動 Hive 時,僅在 Hive session 的開頭一次?

這些是我們一直在使用的標准設置參數:

SET mapred.job.queue.name=yometrics;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions=2000;
SET hive.exec.max.dynamic.partitions.pernode=2000;
SET hive.merge.tezfiles=true;

您可以將配置放在文件的開頭,它將適用於整個 session。

或者,您可以將公共參數放在單獨的文件params.hql和每個腳本調用中

source /local/path/to/the/file/params.hql在開頭。

你也可以把它們放在hive-site.xml

如果您在 Qubole/AWS 上,您也可以使用 bootstrap: https://docs.qubole.com/en/latest/user-guide/hive/bootstrap-script.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM