簡體   English   中英

使用 Cloud Data Fusion 將數據從 SFTP 提取到 GCS 或 BigQuery 時出錯

[英]Error while Data Ingestion from SFTP to GCS or BigQuery using Cloud Data Fusion

我正在嘗試使用 Data Fusion 將 SFTP 文件夾中的 CSV 個文件移動到 GCS。 但我無法做到並拋出以下錯誤:

以下是 FTP 和 GCS 插件的屬性。 令人驚訝的是,我可以在所有階段看到預覽模式下的數據,但是當我嘗試部署管道時它失敗了。 我嘗試在源 (FTP) 和接收器 (GCS) 之間使用 CSVParser 和 TRANSFORM。 它仍然顯示相同的錯誤。 我在 Hub 中使用 FTP 插件,版本為 3.0.0。 請幫我解決。

在此處輸入圖像描述

錯誤如下,當我嘗試部署管道時,盡管預覽數據我能夠看到數據。

在此處輸入圖像描述

我通過在 Data Fusion 中將流水線執行引擎從 SPARK 更改為 MAPREDUCE 解決了這個問題。 現在它正在工作。

好吧,我對此進行了很多研究,我發現這個插件在運行ftp-plugins時有問題,所以目前你不能做太多。 幸運的是,有解決方法。 僅舉幾例:

  • 您可以使用舊版本(Dataproc 映像為 1.5/1.3),如公共案例中所述,該案例也引用了此問題。 有關此案例的更多詳細信息,您可以查看問題鏈接, SFTP Source fails when deployed (SftpExecption) but not in preview 不要忘記投票並發表評論。

  • 另一種方法是使用SFTPCopy插件(從集線器中獲取后,它應該出現在Conditions and Actions下)。 因此,您將能夠從 SFTP 將文件提取到本地路徑,並使用 Source FILE繼續處理您的文件。 有一個關於從 SFTP 讀取和寫入 BigQuery的小指南

  • 這個有點極端,但你也可以使用不同的工作流管理平台,如airflow來處理文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM