繁体 English 中英

带有Hive的Hadoop

[英]Hadoop with Hive

原文 2012-12-18 04:29:52 6 2 hadoop/ hive

我们希望使用Hadoop开发一个具有日志文件分析功能的简单Java EE Web应用程序。 以下是开发应用程序的方法。 但是我们无法通过这种方法。

日志文件将使用sftp / ftp从客户端计算机上传到Hadoop服务器。
调用Hadoop Job来获取日志文件并将该日志文件处理为HDFS文件系统。
在处理日志文件时，内容将存储到HIVE数据库中。
通过使用客户端Web应用程序中的HIVE JDBC连接来搜索日志内容

我们浏览了许多示例以完成一些步骤。 但是我们没有任何具体的样本不可用。

请指出以上方法是否正确，并获取使用Java开发的示例应用程序的链接。

2 个解决方案

我要指出几件事：
a）您需要合并日志文件，或者以其他一些方式确保没有太多日志文件。 考虑Flume（http://flume.apache.org/），它旨在接受来自各种来源的日志并将其放入HDFS。
b）如果使用ftp，则需要一些脚本来从FTP提取数据并放入HDFS。
c）我看到的主要问题是-由于客户端的Web请求而导致运行Hive作业。 配置单元请求不是交互式的-至少需要数十秒，甚至更多。
我也会并发请求有所不同-您可能无法并行运行更多请求