標簽[hive-configuration] - 堆棧內存溢出

如何配置Hive Cli自動獲取kerberos ticket並自行更新/請求新的如果過期

[英]How to configure Hive Cli to automatically get the kerberos ticket and renew/request new if expires by it own

您好，我是 Hive 和 kerberos 的新手。我有一些 hive 的工作，這些工作的運行時間超過了票的生命周期。我如何配置 hive 以便當我啟動 hive shell 如果未緩存票證，它會自動請求票證。獲取票證后假設如果票證在中間過期然后自動獲取新的票證並且我可能有同一用戶同時運行的作 ...

Apache Hive 命令

[英]Apache Hive command

我有這個問題：顯示獲得超過 10 枚金牌的國家的前 5 名比賽紀律。我的代碼是：select distinct t.discipline, m.team from teams t join medals m on (t.noc=m.team and m.numbergold>10) orde ...

Hive count(1) 導致 oom

[英]Hive count(1) leads to oom

我有一個由 cdh 6.3 構建的新集群，hive 現已准備就緒，3 個節點具有 30GB 內存。我創建了一個存儲為鑲木地板的目標配置單元表。我把從另一個集群下載的一些parquet文件放到這個hive表的HDFS目錄下，當我運行 select count(1) from tableA 我終 ...

增加 HIVE 中的最大行大小

[英]Increase max row size in HIVE

我有一個帶有這些配置的 pyspark 工作：我在任何地方都找不到如何設置配置以將max row size增加到150mb 。我只在impala 中找到了命令。提前致謝。 ...

如何刪除直線開頭的 ADD jar 語句

[英]how to remove ADD jar statement in the start of beeline

如何刪除直線終端啟動時發生的語句？當我開始直線時，我默認有 AD jar 語句，但我沒有這個 jar 這種情況錯誤消息：當我開始直線時，如何將其配置為不以直線開始？ ...

驗證 Hive 單查詢和多查詢並行性

[英]Validate Hive Single and Multi Query Parallelism

我用下面的 hive-site.xml 屬性配置了 Hive 並行性並重新啟動了集群物業 1 屬性 2 為了測試並行性，我創建了以下 2 個條件： 1 . 在 file.hql 中單查詢並以hive -f file.hql運行結果：當 hive.exec.parallel = true 時，耗 ...

如何將 hive 查詢結果導出到單個本地文件？

[英]How to export hive query result to single local file?

我想使用管道分隔符將 hive 查詢結果導出到單個本地文件。 Hive 查詢包含 order by 子句。我嘗試了以下解決方案。解決方案1：此解決方案正在創建多個文件。合並文件后，它失去了數據順序。解決方案2：此解決方案正在創建單個文件，但頂部有 2 行，底部有 2 行 ...

msck 是否修復觸發表統計信息生成

[英]Does msck repair trigger table statistics generation

我想知道在表上運行msck repair <table>是否會在以下情況下為 CBO 生成表統計信息： hive.cbo.enable=true hive.stats.autogather=true 還是我必須使用analyze <tablename> compute sta ...

Hive group by 和 count(distinct) 中的減速器數量

[英]Hive number of reducers in group by and count(distinct)

有人告訴我 count(distinct ) 可能會導致數據傾斜，因為只使用了一個 reducer。我使用一個包含 50 億個數據和 2 個查詢的表進行了測試，查詢一：查詢 B：實際上，查詢 A 大約需要 1000-1500 秒，而查詢 B 需要 500-900 秒。結果似乎在意料之中。 ...

Cloudera 發行版中的 hive-site.xml 在哪里？

[英]Where is the hive-site.xml in Cloudera distribution?

我想知道 hive-site.xml 文件配置在 Cloudera 發行版中的位置。主要是因為我想知道在哪里可以找到以下屬性：也許是因為我想覆蓋其中的一些。我知道我可以在 Hive shell 中覆蓋它們，但這僅適用於當前的 session。或者我可以創建一個 .hiverc 文件來初始化 ...

為什么需要在配置單元中為動態分區設置屬性

[英]why do need to set propties for Dynamic partition in hive

我想知道 hive 動態分區中的一件事。在進行動態分區時，我們必須設置以下屬性沒有這些屬性，我們就無法進行動態分區。我想知道為什么需要這些？有人能告訴我為什么我們需要設置這個屬性。 ...

在 session 期間何時設置 hive 參數？

[英]When to set hive parameters during a session?

我是新角色，其中一部分需要在托管和外部 hive 表中創建/插入數據。我們在 hive session 的開頭運行了幾行“設置”參數，但我遇到了一些情況，例如，文件被合並用於某些分區（文件數量很少），但不是其他人（許多較小的文件），似乎是隨機的日子。我的問題是：什么時候需要輸入我所有的 Hiv ...

hive 配置 hive.stats.fetch.partition.stats 不存在

[英]hive configuration hive.stats.fetch.partition.stats does not exists

我使用的是 hive 版本 3.1.1，當我嘗試設置 hive.stats.fetch.partition.stats=true 時。我收到以下錯誤。 hive.stats.fetch.partition.stats 在這個 hive 版本中不可用嗎？查詢返回非零代碼：1，原因：hive ...

如何從具有相似命名模式的多個 Hive 表中查詢數據？

[英]How to query data from multiple Hive tables having a similar naming pattern?

這是我進入蜂巢的處女航。我有多個 Hive 表，例如名稱如下的快照：我有很多這樣的快照表。現在，我需要構建一個腳本，該腳本將表名的一部分作為參數，從所有類似命名的表中讀取記錄，並將所有這些表中的全部數據導出到一個 ORC 文件中。如何在 Hive 中做到這一點？我不知道從哪里開始，因 ...

是否有用於設置“應用程序優先級”的參數？

[英]Is there any params for setting 'Application Priority'?

我正在尋找一種方法來為配置單元中的任務設置應用程序優先級。提交任務后，我想為其設置高優先級（如 100）。這個參數可以在頁面上看到：我正在尋找類似“set mapreduce.map.memory.mb=4096;”的參數，因此我可以為此任務設置優先級。 ...

pyhive：使用 pyhive 設置配置單元屬性

[英]pyhive: Set hive properties using pyhive

我有一個復雜的 hive 查詢，其中底層連接是笛卡爾積。所以我需要設置以下屬性。但是當我使用 pyhive 執行這些屬性時，它無法執行。我收到一個錯誤，要求為笛卡爾設置屬性。 set1 = '''SET hive.strict.checks.cartesian.product=false' ...

Hive Map-Join 配置之謎

[英]Hive Map-Join configuration mystery

有人可以清楚地解釋兩者之間的區別是什么和配置參數？還有這些對應的尺寸參數：和我的觀察是在hive.auto.convert.join.noconditionaltask.size上運行時，即使hive.mapjoin.smalltable.filesize設置的小於小表的 ...

在 hadoop 集群中每天限制清理 /tmp 是否正確

[英]is it right to limit cleaning /tmp each day in hadoop cluster

我們有 HDP 集群版本 – 2.6.4 集群安裝在 redhat 機器版本 – 7.2 我們在 JournalNodes 機器（主機）上注意到以下問題我們有 3 台 JournalNodes 機器，在 /tmp 文件夾下我們有數千個空文件夾作為還有很多文件夾內容為 /tmp ...

使用 hive.optimize.sort.dynamic.partition 選項避免單個文件

[英]Avoid single file with hive.optimize.sort.dynamic.partition option

我正在使用蜂巢。當我使用 INSERT 查詢編寫動態分區並打開 hive.optimize.sort.dynamic.partition 選項（ SET hive.optimize.sort.dynamic.partition=true ）時，每個分區中始終只有一個文件。但是，如果我關閉該選 ...

如何在 Hive 中無限制地防止 sql？

[英]How to prevent sql without limit in Hive?

很多用戶習慣在oracle/mysql中使用'select * from tables' 但是我不應該讓他們在 hive 中這樣查詢有什么辦法可以防止在 hive 中進行 full_table 掃描？像觸發器還是別的什么？非常感謝！ ...