簡體   English   中英

帶有Hive的Hadoop

[英]Hadoop with Hive

我們希望使用Hadoop開發一個具有日志文件分析功能的簡單Java EE Web應用程序。 以下是開發應用程序的方法。 但是我們無法通過這種方法。

  1. 日志文件將使用sftp / ftp從客戶端計算機上傳到Hadoop服務器。
  2. 調用Hadoop Job來獲取日志文件並將該日志文件處理為HDFS文件系統。
  3. 在處理日志文件時,內容將存儲到HIVE數據庫中。
  4. 通過使用客戶端Web應用程序中的HIVE JDBC連接來搜索日志內容

我們瀏覽了許多示例以完成一些步驟。 但是我們沒有任何具體的樣本不可用。

請指出以上方法是否正確,並獲取使用Java開發的示例應用程序的鏈接。

我要指出幾件事:
a)您需要合並日志文件,或者以其他一些方式確保沒有太多日志文件。 考慮Flume(http://flume.apache.org/),它旨在接受來自各種來源的日志並將其放入HDFS。
b)如果使用ftp,則需要一些腳本來從FTP提取數據並放入HDFS。
c)我看到的主要問題是-由於客戶端的Web請求而導致運行Hive作業。 配置單元請求不是交互式的-至少需要數十秒,甚至更多。
我也會並發請求有所不同-您可能無法並行運行更多請求

據我說,您可以做一件事:

1)您可以將SQL Server放入一個數據庫(例如SQL Server)中,而不必使用各種來源的日志並將其放入HDFS中,而可以使用Sqoop將數據導入到Hive(或HDFS)中。

2)這將減少您編寫各種工作以將數據導入HDFS的工作量。

3)一旦數據進入Hive,您就可以做任何您想做的事情。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM