簡體   English   中英

將 csv 文件寫入 azure blob 存儲

[英]Write a csv file into azure blob storage

我正在嘗試使用 pyspark 來分析我在 databricks 筆記本上的數據。 Blob 存儲已掛載在 databricks 集群上,經過分析,想將 csv 寫回 Blob 存儲。 由於 pyspark 以分布式方式工作,csv 文件被分成小塊並寫入 blob 存儲。 當我們使用 pyspark 進行分析時,如何克服這個問題並將其作為單個 csv 文件寫入 blob。 謝謝。

還請讓我知道,如果我們遷移到Azure Datalake存儲Gen2,是否可以克服? 更優化了,csv可以作為一個文件寫入嗎? 正如我之前提到的,分析是通過pyspark在databricks筆記本上完成的。 謝謝。

您真的要一個文件嗎? 如果是,則可以通過將所有小的csv文件合並為單個csv文件來克服此問題的唯一方法。 您可以使用databricks群集上的map函數將其合並,或者可以使用某些后台作業來完成此操作。

在這里看看: https : //forums.databricks.com/questions/14851/how-to-concat-lots-of-1mb-cvs-files-in-pyspark.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM