[英]Hadoop with Hive
我們希望使用Hadoop開發一個具有日志文件分析功能的簡單Java EE Web應用程序。 以下是開發應用程序的方法。 但是我們無法通過這種方法。
我們瀏覽了許多示例以完成一些步驟。 但是我們沒有任何具體的樣本不可用。
請指出以上方法是否正確,並獲取使用Java開發的示例應用程序的鏈接。
我要指出幾件事:
a)您需要合並日志文件,或者以其他一些方式確保沒有太多日志文件。 考慮Flume(http://flume.apache.org/),它旨在接受來自各種來源的日志並將其放入HDFS。
b)如果使用ftp,則需要一些腳本來從FTP提取數據並放入HDFS。
c)我看到的主要問題是-由於客戶端的Web請求而導致運行Hive作業。 配置單元請求不是交互式的-至少需要數十秒,甚至更多。
我也會並發請求有所不同-您可能無法並行運行更多請求
據我說,您可以做一件事:
1)您可以將SQL Server放入一個數據庫(例如SQL Server)中,而不必使用各種來源的日志並將其放入HDFS中,而可以使用Sqoop將數據導入到Hive(或HDFS)中。
2)這將減少您編寫各種工作以將數據導入HDFS的工作量。
3)一旦數據進入Hive,您就可以做任何您想做的事情。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.