简体   繁体   English

如何使用参数文件将多个文件从 BLOB 导出为 Azure Synapse Analytics 中的 Data Lake Parquet 格式?

[英]How to Export Multiple files from BLOB to Data lake Parquet format in Azure Synapse Analytics using a parameter file?

I'm trying to export multiples.csv files from a blob storage to Azure Data Lake Storage in Parquet format based on a parameter file using ADF -for each to iterate each file in blob and copy activity to copy from src to sink (have tried using metadata and for each activity) as I'm new on Azure could someone help me please to implement a parameter file that will be used in copy activity.我正在尝试将 multiples.csv 文件从 blob 存储导出到 Azure 基于参数文件的 Parquet 格式的数据湖存储,使用 ADF -for each 迭代 blob 中的每个文件并复制活动以从 src 复制到接收器(已尝试使用元数据和每个活动),因为我是 Azure 的新手,有人可以帮我实现一个将在复制活动中使用的参数文件。 Thanks a lot非常感谢

If so.如果是这样。 I created simple test:我创建了简单的测试:

  1. I have a paramfile contains the file names that will be copied later.我有一个 paramfile 包含稍后将复制的文件名。
    在此处输入图像描述

  2. In ADF, we can use Lookup activity to the paramfile.在 ADF 中,我们可以对参数文件使用Lookup活动。 在此处输入图像描述 The dataset is as follows:数据集如下: 在此处输入图像描述 The output of Lookup activity is as follows: Lookup活动的output如下:
    在此处输入图像描述

  3. In ForEach activity, we should add dynamic content @activity('Lookup1').output.value .ForEach活动中,我们应该添加动态内容@activity('Lookup1').output.value It will foreach the ouput array of Lookup activity.它将 foreach Lookup活动的输出数组。
    在此处输入图像描述

  4. Inside ForEach activity, at source tab we need to select Wildcard file path and add dynamic content @item().Prop_0 in the Wildcard paths.ForEach活动中,在源选项卡中,我们需要 select Wildcard file path并在通配符路径中添加动态内容@item().Prop_0 在此处输入图像描述

That's all.就这样。

I think you are asking for an idea of ow to loop through multiple files and merge all similar files into one data frame, so you can push it into SQL Server Synapse.我认为您是在询问如何循环遍历多个文件并将所有相似文件合并到一个数据帧中,因此您可以将其推送到 SQL Server Synapse 中。 Is that right?那正确吗? You can loop through files in a Lake by putting wildcard characters in the path to files that are similar.您可以通过将通配符放在相似文件的路径中来遍历 Lake 中的文件。

Copy Activity pick up only files that have the defined naming pattern—for example, "*2020-02-19.csv" or "???20210219.json".复制活动仅选取具有已定义命名模式的文件,例如“*2020-02-19.csv”或“???20210219.json”。

See the link below for more details.有关详细信息,请参阅下面的链接。

https://azure.microsoft.com/en-us/updates/data-factory-supports-wildcard-file-filter-for-copy-activity/ https://azure.microsoft.com/en-us/updates/data-factory-supports-wildcard-file-filter-for-copy-activity/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何将Azure Blob文件复制到Azure Data Lake Analytics - How to copy azure blob files to azure data lake analytics 将 Parquet 文件从 Azure 数据湖存储帐户复制到 Synapse 数据仓库表失败 - Copy parquet file from Azure data lake storage account to Synapse data warehouse table failed 如何使用 databricks 在 Azure 数据湖中将.rdata 文件转换为镶木地板? - How to convert .rdata file to parquet in Azure data lake using databricks? 如何从Azure数据湖分析文件中的dat文件中获取列数 - How to fetch the column count from dat file in Azure data lake analytics files 如何使用Azure函数将数据附加到Azure Blob中的拼花文件 - How to append data to a parquet file in Azure blob using Azure function 从 Azure 数据湖中读取和查询 Parquet 文件 - Read and Query Parquet files from Azure Data Lake Using Azure Function without downloading locally C# 如何使用 Azure 数据工厂将新文件或更新文件从 Azure 数据湖推送到文件夹 - How to push new or updated files from Azure Data lake to File folder using Azure Data Factory 使用Azure Data Lake进行分析 - using Azure Data Lake for Analytics 如何使用来自Azure文件共享的多个线程将数据复制到Azure Data Lake存储? - How to copy data to Azure Data Lake store using multiple threads from azure file share? 如何将 .parquet 文件从本地计算机上传到 Azure Storage Data Lake Gen2? - How can I upload a .parquet file from my local machine to Azure Storage Data Lake Gen2?
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM