簡體 English 中英

PYSPARK - 如何讀取 S3 中所有子文件夾中的所有 csv 文件？

[英]PYSPARK - How to read all csv files in all subfolders in S3?

原文 2019-05-02 13:19:52 3 1 python/ apache-spark/ amazon-s3/ pyspark

在 Amazon S3 中，我有一個包含大約 30 個子文件夾的文件夾，每個子文件夾包含一個 csv 文件。

我想要一種從所有子文件夾中讀取每個 csv 文件的簡單方法——目前，我可以通過指定路徑 n 次來做到這一點，但我覺得必須有一種更簡潔的方法。

例如dataframe = sqlContext.read.csv([ path1, path2, path3,etc..], header=True)

1 個解決方案

像這樣模擬您的情況（使用 jupyter 魔術命令，以便您可以查看文件夾結構）

...只需使用 * ... 還假設每個 csv 具有相同的列數

! ls sub_csv/
print("="*10)
! ls sub_csv/csv1/
! ls sub_csv/csv2/
! ls sub_csv/csv3/
print("="*10)
! cat sub_csv/csv1/*.csv
! cat sub_csv/csv2/*.csv
! cat sub_csv/csv3/*.csv

csv1
csv2
csv3
==========
csv1.csv
csv2.csv
csv3.csv
==========
id
1
id
2
id
3

spark\
.read\
.option("header", "true")\
.csv("sub_csv/*")\
.show()

+---+
| id|
+---+
|  1|
|  2|
|  3|
+---+

如何讀取一個目錄中的多個文件，所有這些文件都是帶有Airflow S3 Hook或boto3的csv.gzip？

[英]How to read multiple files in a directory, all of which are csv.gzip with Airflow S3 Hook or boto3?

如何從 S3 存儲桶和所有子文件夾中檢索文件名

[英]How to retrieve file names from S3 bucket and all of the subfolders

如何使用 pyspark 加載文件夾中的所有 csv 文件

[英]How to load all csv files in a folder with pyspark

如何從 S3 的 Pyspark 子文件夾中創建一個新的 dataframe 和 CSV 文件

[英]How to create a new dataframe with CSV file from a folder with subfolders in Pyspark in S3

使用Pyspark讀取S3上隨機的文件樣本

[英]Read random sample of files on S3 with Pyspark

如何標記所有子文件夾中的所有文件

[英]How to tokenize all the files from all the subfolders

將所有csv文件從s3轉換為鑲木地板

[英]convert all csv files from s3 to parquet

如何從s3存儲桶中僅讀取5條記錄並在不獲取csv文件的所有數據的情況下返回它

[英]How to read only 5 records from s3 bucket and return it without getting all data of csv file

從s3存儲桶python中讀取按時間排序的所有文件

[英]read all the files from s3 bucket python sorted by time

用boto一次性讀取S3路徑中所有文件的內容

[英]Read content of all files in S3 path in one go with boto

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何讀取一個目錄中的多個文件，所有這些文件都是帶有Airflow S3 Hook或boto3的csv.gzip？如何從 S3 存儲桶和所有子文件夾中檢索文件名如何使用 pyspark 加載文件夾中的所有 csv 文件如何從 S3 的 Pyspark 子文件夾中創建一個新的 dataframe 和 CSV 文件使用Pyspark讀取S3上隨機的文件樣本如何標記所有子文件夾中的所有文件將所有csv文件從s3轉換為鑲木地板如何從s3存儲桶中僅讀取5條記錄並在不獲取csv文件的所有數據的情況下返回它從s3存儲桶python中讀取按時間排序的所有文件用boto一次性讀取S3路徑中所有文件的內容

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM