![](/img/trans.png)
[英]Query returning all system stored procedures listed by MS SQL Server
[英]MS SQL server stored procedures to Spark
我們有MS SQL服務器作為各種數據庫的主要選項,我們定期運行數百個存儲過程。 現在我們正在轉向完全大的數據堆棧。 我們使用Spark進行批處理作業。 但是,我們已經投入了大量精力來創建這些存儲過程。 有沒有辦法在Spark上重用存儲過程? 或者是否有一種簡單的方法將它們遷移到Spark而不是從頭開始編寫?
或者像Cloudera發行版/ impala這樣的任何框架都能滿足這一要求?
不,我還沒有說清楚。 您可能能夠使用非常相似的邏輯流程,但是您需要投入大量時間和精力將T-SQL轉換為Spark。 我建議直接使用Scala而不是浪費時間使用Python / PySpark。
我對轉換的經驗法則是嘗試在存儲過程中將SQL作為SQL中的SQL執行( sqlContext.sql("SELECT x FROM y")
),但要注意Spark DataFrames是不可變的,因此任何UPDATE
或DELETE
必須更改操作以輸出新修改的DataFrame。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.