簡體 English 中英

Spark可以替換ETL工具

[英]Can Spark Replace ETL Tool

原文 2016-11-25 21:40:21 4 2 amazon-web-services/ apache-spark/ etl/ data-warehouse/ pyspark-sql

現有流程 - 原始結構數據被復制到Redshift的暫存層。 然后使用Informatica，Telend等ETL工具對Datamart / datawarehouse的Fact and Dimension表進行增量加載。 所有連接都發生在數據庫層中（ETL將查詢推送到DB中） - Spark可以替換ETL工具並執行相同的處理並將數據加載到Redshift中嗎？ - 這種架構有哪些優點和缺點？

2 個解決方案

我已經在項目上進行了大量工作，將現有的ETL工作遷移到了過去4年的火花中。

ETL工作的問題如下

他們沒有給我們嚴格的SLA。 作業共享相同的資源池，因此優先級很難。 每個人都把自己的工作視為business critical 。
另一個重要問題是基於ETL的工作成本很高，因為我們向提供商付款。
規模是另一個重要問題。 我們需要大規模的ETL，我們覺得它太貴了。

因此，我們將所有ETL遷移到了火花作業。 Spark和hadoop都是開源的，除了計算之外我們沒有任何額外的成本問題。

SQL的Spark支持隨着時間的推移而顯着改善。 您可以在同一數據幀上運行ML / Graph查詢和普通ETL。 Spark連接速度很快，可以針對不同的數據集進行優化。 您可以對轉換和連接進行更細粒度的控制。

我們首先使用Long運行集群，支持spark和其他大數據工具。 我們統一了平台，以便所有客戶都可以使用它。 我們慢慢地將所有ETL工作遷移到了工作崗位上。

我們確實使用Redshift進行報告，但是從數據，聯接，管理傳入數據以及將現有快照合並到火花中的所有重要提升。

通過遠離現有的ETL作業並將它們遷移到Spark，我們節省了數百萬美元。

我的兩個便士是，最終火花，蜂巢大數據，hadoop最終將超過ETL的工作。 我不是說ETL會被剔除，但絕對是開源解決方案將成為這個領域的主導力量。

我是否知道用Spark替換Informatica的原因。 Informatica BDM 10.1版本附帶Spark執行引擎，它將Informatica映射轉換為Spark等效（Scala代碼）並在集群上執行此操作。 另外，在我看來，Spark更適合不在中間的數據，在ETL的情況下，數據從轉換到轉換！

AWS Glue 作為 ETL 工具？

[英]AWS Glue as a ETL tool?

AWS中最簡單的工具即可實現非常簡單的ETL（轉換）？

[英]Simplest tool in AWS for very simple (transform in) ETL?

從SQL Server到Amazon Redshift的“數據加載”或“ ETL”工具

[英]Tool to “Data Load” or “ETL” — from SQL Server into Amazon Redshift

如何使用ODBC連接器連接膠水ETL / Spark中的關系數據庫

[英]How to Connect Relational Database in Glue ETL / Spark using ODBC connector

如何在 Glue Spark ETL 作業上倒帶作業書簽？

[英]How to rewind Job Bookmarks on Glue Spark ETL job?

是否可以使用 Matillion ETL 工具將數據從 S3 加載到 SQL 服務器？

[英]Is it possible to load data from S3 to SQL Server using Matillion ETL tool?

從 DynamoDB for ETL 中提取數據的最佳（即最快/最便宜）工具

[英]Best (i.e. fastest/cheapest) tool to extract data from DynamoDB for ETL

ETL過程，使用Apache Spark將數據從一個Db傳輸到另一個Db

[英]ETL process to transfer data from one Db to another using Apache Spark

AWS pandas etl 作業對於 lambda 來說太大而對於 Spark 來說太小 - 使用什么？

[英]AWS pandas etl job that is too big for lambda and too small for Spark - what to use?

如何減少膠水etl作業（火花）實際開始執行所花費的時間？

[英]How to reduce the time taken by the glue etl job(spark) to actually start executing?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 AWS Glue 作為 ETL 工具？ AWS中最簡單的工具即可實現非常簡單的ETL（轉換）？從SQL Server到Amazon Redshift的“數據加載”或“ ETL”工具如何使用ODBC連接器連接膠水ETL / Spark中的關系數據庫如何在 Glue Spark ETL 作業上倒帶作業書簽？是否可以使用 Matillion ETL 工具將數據從 S3 加載到 SQL 服務器？從 DynamoDB for ETL 中提取數據的最佳（即最快/最便宜）工具 ETL過程，使用Apache Spark將數據從一個Db傳輸到另一個Db AWS pandas etl 作業對於 lambda 來說太大而對於 Spark 來說太小 - 使用什么？如何減少膠水etl作業（火花）實際開始執行所花費的時間？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM