如何避免從讀取 s3 中不存在路徑的文件時產生火花

Question

我有一些 s3 文件為s3://test-shivi/blah1/blah1.parquet ， s3://test-shivi/blah2/blah2.parquet ， s3://test-shivi/blah3/NONE

現在我想通過火花加載所有的鑲木地板，例如

df = spark.read.parquet("s3a:///test-shivi/*.*.parquet", schema=spark_schema)

但是由於blah3沒有匹配的文件，我收到了這個錯誤。

pyspark.sql.utils.AnalysisException: Path does not exist: s3:

如何保護/跳過那些沒有任何匹配文件的目錄？

Answer 1

看起來問題在於您的路徑/通配符模式錯誤。 改用這個：

df = spark.read.parquet("s3a://test-shivi/*/*.parquet", schema=spark_schema)

如果blah3不包含 parquet 文件，它將與模式不匹配。 這不會引起任何問題。

但要小心前導斜杠： s3a:///是錯誤的，它必須是s3a://{bucket}/ 。