簡體   English   中英

如何在DBFS中本地保存和下載csv?

[英]How to save and download locally csv in DBFS?

我正在嘗試保存 csv 文件作為 SQL 查詢的結果,通過 Databricks 發送到 Athena。 該文件應該是一個大約 4-6 GB(約 40m 行)的大表。

我正在執行以下步驟:

  1. 通過以下方式創建 PySpark dataframe:

     df = sqlContext.sql("select * from my_table where year = 19")
  2. 將 PySpark dataframe 轉換為 Pandas Z6A8064B5DF479455500553C47C55057 我意識到,這一步可能是不必要的,但我只是開始使用 Databricks,可能不知道更快地完成所需的命令。 所以我這樣做:

     ab = df.toPandas()
  3. 將文件保存在某處以便稍后在本地下載:

     ab.to_csv('my_my.csv')

但是我怎么下載呢?

我懇請您非常具體,因為我不知道使用 Databricks 的許多技巧和細節。

使用 GUI,您可以下載完整的結果(最多 1 百萬行)。

在此處輸入圖像描述

要下載完整結果,首先將文件保存到 dbfs,然后使用 Databricks cli 將文件復制到本地計算機,如下所示。

dbfs cp "dbfs:/FileStore/tables/my_my.csv" "A:\AzureAnalytics"

參考: Databricks 文件系統

DBFS 命令行界面 (CLI) 使用 DBFS API 向 DBFS 公開易於使用的命令行界面。 使用此客戶端,您可以使用類似於在 Unix 命令行上使用的命令與 DBFS 交互。 例如:

# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana

參考: 安裝和配置 Azure Databricks CLI

希望這可以幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM