簡體 English 中英

帶有Hive的Hadoop

[英]Hadoop with Hive

原文 2012-12-18 04:29:52 2 2 hadoop/ hive

我們希望使用Hadoop開發一個具有日志文件分析功能的簡單Java EE Web應用程序。 以下是開發應用程序的方法。 但是我們無法通過這種方法。

日志文件將使用sftp / ftp從客戶端計算機上傳到Hadoop服務器。
調用Hadoop Job來獲取日志文件並將該日志文件處理為HDFS文件系統。
在處理日志文件時，內容將存儲到HIVE數據庫中。
通過使用客戶端Web應用程序中的HIVE JDBC連接來搜索日志內容

我們瀏覽了許多示例以完成一些步驟。 但是我們沒有任何具體的樣本不可用。

請指出以上方法是否正確，並獲取使用Java開發的示例應用程序的鏈接。

2 個解決方案

我要指出幾件事：
a）您需要合並日志文件，或者以其他一些方式確保沒有太多日志文件。 考慮Flume（http://flume.apache.org/），它旨在接受來自各種來源的日志並將其放入HDFS。
b）如果使用ftp，則需要一些腳本來從FTP提取數據並放入HDFS。
c）我看到的主要問題是-由於客戶端的Web請求而導致運行Hive作業。 配置單元請求不是交互式的-至少需要數十秒，甚至更多。
我也會並發請求有所不同-您可能無法並行運行更多請求