繁体   English   中英

使用 Oozie 使用 Hive/Hadoop 安排临时查询

[英]Scheduling an ad-hoc query with Hive/Hadoop using Oozie

Oozie 是否支持用户调度,通过 REST API,即席 Hive 查询?

我们正在构建一个系统,用户可以在其中搜索 Hadoop 中的文档,支持用户(可选)指定要搜索的数据的某些属性,使用 Hive 执行针对 Hadoop 的查询。 由于对可选字段的这种支持,我们无法提前知道 Hive 查询会是什么样子(就 Hive 查询中将使用哪些表而言)。 我们有一个服务,在运行时,我们处理用户的查询以生成相应的 Hive 查询。

我们希望能够通过 Oozie 安排这些查询,但我一直无法找到有关如何通过 Oozie 执行此操作的文档。 我认为这是可能的。 是否有可用于描述如何执行此操作的示例 Java 代码?

使用Oozie的协调调度工作,Apache文档这里和示例这里的Oozie的协调员。 此外,看一看阿兹卡班( 12进行调度)。

通过 REST API 的代理 Hive 作业提交允许用户提交作业而无需在 HDFS 上创建工作流 XML:

您还可以使用 FluentAPI 以编程方式构建工作流:

如上所述,Oozie Coordinator 可用于安排和定期执行工作流。 除了时间依赖之外,您还可以定义数据依赖(例如 HDFS 上特定文件的存在)以启动工作流。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM