簡體   English   中英

MS SQL服務器存儲過程到Spark

[英]MS SQL server stored procedures to Spark

我們有MS SQL服務器作為各種數據庫的主要選項,我們定期運行數百個存儲過程。 現在我們正在轉向完全大的數據堆棧。 我們使用Spark進行批處理作業。 但是,我們已經投入了大量精力來創建這些存儲過程。 有沒有辦法在Spark上重用存儲過程? 或者是否有一種簡單的方法將它們遷移到Spark而不是從頭開始編寫?

或者像Cloudera發行版/ impala這樣的任何框架都能滿足這一要求?

不,我還沒有說清楚。 您可能能夠使用非常相似的邏輯流程,但是您需要投入大量時間和精力將T-SQL轉換為Spark。 我建議直接使用Scala而不是浪費時間使用Python / PySpark。

我對轉換的經驗法則是嘗試在存儲過程中將SQL作為SQL中的SQL執行( sqlContext.sql("SELECT x FROM y") ),但要注意Spark DataFrames是不可變的,因此任何UPDATEDELETE必須更改操作以輸出新修改的DataFrame。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM