繁体   English   中英

如何在DBFS中本地保存和下载csv?

[英]How to save and download locally csv in DBFS?

我正在尝试保存 csv 文件作为 SQL 查询的结果,通过 Databricks 发送到 Athena。 该文件应该是一个大约 4-6 GB(约 40m 行)的大表。

我正在执行以下步骤:

  1. 通过以下方式创建 PySpark dataframe:

     df = sqlContext.sql("select * from my_table where year = 19")
  2. 将 PySpark dataframe 转换为 Pandas Z6A8064B5DF479455500553C47C55057 我意识到,这一步可能是不必要的,但我只是开始使用 Databricks,可能不知道更快地完成所需的命令。 所以我这样做:

     ab = df.toPandas()
  3. 将文件保存在某处以便稍后在本地下载:

     ab.to_csv('my_my.csv')

但是我怎么下载呢?

我恳请您非常具体,因为我不知道使用 Databricks 的许多技巧和细节。

使用 GUI,您可以下载完整的结果(最多 1 百万行)。

在此处输入图像描述

要下载完整结果,首先将文件保存到 dbfs,然后使用 Databricks cli 将文件复制到本地计算机,如下所示。

dbfs cp "dbfs:/FileStore/tables/my_my.csv" "A:\AzureAnalytics"

参考: Databricks 文件系统

DBFS 命令行界面 (CLI) 使用 DBFS API 向 DBFS 公开易于使用的命令行界面。 使用此客户端,您可以使用类似于在 Unix 命令行上使用的命令与 DBFS 交互。 例如:

# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana

参考: 安装和配置 Azure Databricks CLI

希望这可以帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM