[英]Copy File/Folders in Azure Data Lake Gen1
在Azure Data Lake Storage Gen1中,我可以看到文件夾結構,查看文件夾和文件等。我可以對文件執行操作,例如重命名/刪除它們等等
Azure門戶和其他方法中缺少的一項操作是創建文件夾或文件副本的選項
我曾嘗試使用PowerShell並使用門戶本身,似乎此選項不可用
這有什么理由嗎?
是否還有其他選項可以復制Data-lake中的文件夾?
數據湖存儲用作HDInsight群集的一部分
您可以使用Azure存儲資源管理器復制文件和文件夾。
在數據湖中復制文件和文件夾的其他選項包括:
我的建議是使用Azure Data Factory(ADF)。 如果要復制大文件或文件夾,這是最快的方法。 根據我的經驗,10GB文件大約會在1分20秒內被復制。 您只需要創建一個包含一個數據存儲的簡單管道,該數據存儲將用作源和目標數據存儲。
使用Azure存儲資源管理器(ASE)復制大文件的速度要慢1GB,超過10分鍾。 使用ASE復制文件與大多數文件瀏覽器(復制/粘貼)中的操作最相似,這與需要創建管道的ADF復制不同。 我認為創建簡單的管道是值得的,特別是因為管道可以重復用於復制其他文件或文件夾,只需要很少的編輯。
我同意上述評論,您可以使用ADF復制文件。 只是你需要看它不會增加你的成本。 Microsoft Azure存儲資源管理器(MASE)也是復制blob的好選擇。
如果你有非常大的文件,那么下面的選項更快:
AzCopy:
從blob下載單個文件到本地目錄:
AzCopy /Source:https://<StorageAccountName>.blob.core.windows.net/<BlobFolderName(if any)> /Dest:C:\ABC /SourceKey:<BlobAccessKey> /Pattern:"<fileName>"
如果您正在使用帶有HDInsight的Azure Data Lake Store,則另一個非常高性能的選項是使用本機hadoop文件系統命令,如hdfs dfs -cp,或者如果要復制大量文件distcp。 例如:
hadoop distcp adl://<data_lake_storage_gen1_account>.azuredatalakestore.net:443/sourcefolder adl://<data_lake_storage_gen1_account>.azuredatalakestore.net:443/targetfolder
如果您使用多個存儲帳戶,這也是一個不錯的選擇。 另請參閱文檔 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.