簡體   English   中英

復制Azure Data Lake Gen1中的文件/文件夾

[英]Copy File/Folders in Azure Data Lake Gen1

在Azure Data Lake Storage Gen1中,我可以看到文件夾結構,查看文件夾和文件等。我可以對文件執行操作,例如重命名/刪除它們等等

Azure門戶和其他方法中缺少的一項操作是創建文件夾或文件副本的選項

我曾嘗試使用PowerShell並使用門戶本身,似乎此選項不可用

這有什么理由嗎?

是否還有其他選項可以復制Data-lake中的文件夾?

數據湖存儲用作HDInsight群集的一部分

您可以使用Azure存儲資源管理器復制文件和文件夾。

  1. Open Storage Explorer。
  2. 在左側窗格中,展開“本地”和“附加”。
  3. 右鍵單擊Data Lake Store,然后從上下文菜單中選擇Connect to Data Lake Store ....
  4. 輸入Uri,然后該工具導航到您剛輸入的URL的位置。 在此輸入圖像描述
  5. 選擇要復制的文件/文件夾。
  6. 導航到您想要的目的地。
  7. 單擊粘貼。 在此輸入圖像描述

在數據湖中復制文件和文件夾的其他選項包括:

我的建議是使用Azure Data Factory(ADF)。 如果要復制大文件或文件夾,這是最快的方法。 根據我的經驗,10GB文件大約會在1分20秒內被復制。 您只需要創建一個包含一個數據存儲的簡單管道,該數據存儲將用作源和目標數據存儲。

使用Azure存儲資源管理器(ASE)復制大文件的速度要慢1GB,超過10分鍾。 使用ASE復制文件與大多數文件瀏覽器(復制/粘貼)中的操作最相似,這與需要創建管道的ADF復制不同。 我認為創建簡單的管道是值得的,特別是因為管道可以重復用於復制其他文件或文件夾,只需要很少的編輯。

我同意上述評論,您可以使用ADF復制文件。 只是你需要看它不會增加你的成本。 Microsoft Azure存儲資源管理器(MASE)也是復制blob的好選擇。

如果你有非常大的文件,那么下面的選項更快:

AzCopy:

從blob下載單個文件到本地目錄:

AzCopy /Source:https://<StorageAccountName>.blob.core.windows.net/<BlobFolderName(if any)> /Dest:C:\ABC /SourceKey:<BlobAccessKey>  /Pattern:"<fileName>" 

如果您正在使用帶有HDInsight的Azure Data Lake Store,則另一個非常高性能的選項是使用本機hadoop文件系統命令,如hdfs dfs -cp,或者如果要復制大量文件distcp。 例如:

hadoop distcp adl://<data_lake_storage_gen1_account>.azuredatalakestore.net:443/sourcefolder adl://<data_lake_storage_gen1_account>.azuredatalakestore.net:443/targetfolder

如果您使用多個存儲帳戶,這也是一個不錯的選擇。 另請參閱文檔

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM