繁体   English   中英

Pentaho和Hadoop

[英]Pentaho and Hadoop

如果这个问题看起来很幼稚,我感到很抱歉,但是我是数据学习领域的新手,因为我现在是自学成才,但是我的问题是Pentaho和Hadoop等ETL产品之间的区别是什么? 当我用它代替那? 或者我可以一起使用它们,怎么办?

谢谢,

ETL是一种提取数据,转换(联接,丰富,过滤等)并将结果加载到另一个数据存储中的工具。 良好的ETLS是可视的,与数据存储无关,并且易于自动化。

Hadoop是分布在集群网络和用于处理分散数据的软件的数据存储。 数据转换专门针对一些基本操作,这些操作可以针对通常数量庞大的数据进行优化,例如(但不仅限于)Map-Reduce。

Pentaho Data Integrator具有到Hadoop系统的连接器,这些连接器易于设置和调整。 因此,最好的策略是将Hadoop网络设置为数据存储并通过PDI对其进行操作。

Pentaho PDI是用于创建,管理,运行和监视ETL工作流的工具。 它可以与Hadoop,RDBMS,队列,文件等配合使用。Hadoop是用于分布式计算(Map-Reduce框架,HDFS等)的平台。 许多工具可以在Hadoop上运行,也可以连接到Hadoop并使用其数据,运行流程。

Pentaho PDI可以使用自己的连接器连接到Hadoop并写入/读取数据。 您可以从PDI开始Hadopp作业,它也可以在转换流中自行处理数据,并将结果存储或发送到HDFS,RDBMS,一些队列,电子邮件等。当然,您可以为ETL工作流程发明自己的工具,也可以简单地使用bash + Hive等,但是PDI允许以统一的方式处理ETL,而不依赖于数据源和目标。 Pentaho的可视化效果也很好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM