簡體   English   中英

Spark可以替換ETL工具

[英]Can Spark Replace ETL Tool

現有流程 - 原始結構數據被復制到Redshift的暫存層。 然后使用Informatica,Telend等ETL工具對Datamart / datawarehouse的Fact and Dimension表進行增量加載。 所有連接都發生在數據庫層中(ETL將查詢推送到DB中) - Spark可以替換ETL工具並執行相同的處理並將數據加載到Redshift中嗎? - 這種架構有哪些優點和缺點?

我已經在項目上進行了大量工作,將現有的ETL工作遷移到了過去4年的火花中。

ETL工作的問題如下

  1. 他們沒有給我們嚴格的SLA。 作業共享相同的資源池,因此優先級很難。 每個人都把自己的工作視為business critical

  2. 另一個重要問題是基於ETL的工作成本很高,因為我們向提供商付款。

  3. 規模是另一個重要問題。 我們需要大規模的ETL,我們覺得它太貴了。

因此,我們將所有ETL遷移到了火花作業。 Spark和hadoop都是開源的,除了計算之外我們沒有任何額外的成本問題。

SQL的Spark支持隨着時間的推移而顯着改善。 您可以在同一數據幀上運行ML / Graph查詢和普通ETL。 Spark連接速度很快,可以針對不同的數據集進行優化。 您可以對轉換和連接進行更細粒度的控制。

我們首先使用Long運行集群,支持spark和其他大數據工具。 我們統一了平台,以便所有客戶都可以使用它。 我們慢慢地將所有ETL工作遷移到了工作崗位上。

我們確實使用Redshift進行報告,但是從數據,聯接,管理傳入數據以及將現有快照合並到火花中的所有重要提升。

通過遠離現有的ETL作業並將它們遷移到Spark,我們節省了數百萬美元。

我的兩個便士是,最終火花,蜂巢大數據,hadoop最終將超過ETL的工作。 我不是說ETL會被剔除,但絕對是開源解決方案將成為這個領域的主導力量。

我是否知道用Spark替換Informatica的原因。 Informatica BDM 10.1版本附帶Spark執行引擎,它將Informatica映射轉換為Spark等效(Scala代碼)並在集群上執行此操作。 另外,在我看來,Spark更適合不在中間的數據,在ETL的情況下,數據從轉換到轉換!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM