簡體 English 中英

在MRJob中連接HIVE

[英]Connecting HIVE in MRJob

原文 2016-11-28 23:09:09 7 1 hadoop/ hive/ mrjob

場景是我需要處理一個文件（輸入），對於每個記錄，我需要檢查輸入文件中的某些字段是否與Hadoop集群中存儲的字段匹配。

我們考慮使用MRJob處理輸入文件，並使用HIVE從hadoop集群獲取數據。 我想知道是否可以在MRJob模塊內連接HIVE。 如果是這樣，該怎么做？

如果沒有，那么滿足我的要求的理想方法是什么。

我是Hadoop，MRJob和Hive的新手。

請提供一些建議。

“匹配存儲在Hadoop集群中的字段。” ->您的意思是您還需要搜索該文件中是否還存在這些字段？

您總共需要掃描多少個文件？

一種解決方案是加載HBase表中的每個項目以及輸入文件中的每個記錄，從表中“獲取”記錄。 如果GET成功，則該記錄存在於HDFS中的其他位置，否則就不存在。 每個HBase記錄都需要一個唯一的標識符，並且輸入文件中也應存在相同的標識符。

您也可以連接到Hive，但是架構必須嚴格，以便所有HDFS文件都可以加載到單個Hive表中。 HBase並不真正在乎列（僅需要ColumnFamilies）。 MapReduce和Hive的另一個缺點是，與HBase（近實時）相比，速度將較低。

希望這可以幫助。

我可以在分區的配置單元表上使用mrjob python庫嗎？

[英]Can I use mrjob python library on partitioned hive tables?

[英]Connecting Apache Superset with Hive

[英]Connecting to Hive using Beeline

[英]Connecting to Hive in R

[英]Connecting Cassandra with Hive

[英]Connecting to Hive Database with DBeaver

[英]Beeline error connecting to Hive2

[英]Connecting R to Hive on a Remote Server

[英]Connecting to metastore in hive after upgrade

[英]connecting no authentication apache hive with MicroStrategy

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 我可以在分區的配置單元表上使用mrjob python庫嗎？使用 Hive 連接 Apache Superset 使用直線連接到Hive 在R中連接到Hive 將Cassandra與Hive連接使用 DBeaver 連接 Hive 數據庫直線錯誤連接到Hive2 將R連接到遠程服務器上的Hive 升級后連接到配置單元中的 Metastore 用MicroStrategy連接沒有身份驗證的Apache配置單元

相關標簽