繁体   English   中英

带有Hive的Hadoop

[英]Hadoop with Hive

我们希望使用Hadoop开发一个具有日志文件分析功能的简单Java EE Web应用程序。 以下是开发应用程序的方法。 但是我们无法通过这种方法。

  1. 日志文件将使用sftp / ftp从客户端计算机上传到Hadoop服务器。
  2. 调用Hadoop Job来获取日志文件并将该日志文件处理为HDFS文件系统。
  3. 在处理日志文件时,内容将存储到HIVE数据库中。
  4. 通过使用客户端Web应用程序中的HIVE JDBC连接来搜索日志内容

我们浏览了许多示例以完成一些步骤。 但是我们没有任何具体的样本不可用。

请指出以上方法是否正确,并获取使用Java开发的示例应用程序的链接。

我要指出几件事:
a)您需要合并日志文件,或者以其他一些方式确保没有太多日志文件。 考虑Flume(http://flume.apache.org/),它旨在接受来自各种来源的日志并将其放入HDFS。
b)如果使用ftp,则需要一些脚本来从FTP提取数据并放入HDFS。
c)我看到的主要问题是-由于客户端的Web请求而导致运行Hive作业。 配置单元请求不是交互式的-至少需要数十秒,甚至更多。
我也会并发请求有所不同-您可能无法并行运行更多请求

据我说,您可以做一件事:

1)您可以将SQL Server放入一个数据库(例如SQL Server)中,而不必使用各种来源的日志并将其放入HDFS中,而可以使用Sqoop将数据导入到Hive(或HDFS)中。

2)这将减少您编写各种工作以将数据导入HDFS的工作量。

3)一旦数据进入Hive,您就可以做任何您想做的事情。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM