簡體   English   中英

無法將文件從 AWS Glue 動態幀解析為 Pyspark 數據幀

[英]Unable to parse file from AWS Glue dynamic_frame to Pyspark Data frame

我是 AWS 膠水的新手。

我在將膠水數據幀轉換為 pyspark 數據幀時遇到問題:

下面是我為讀取 csv 文件而創建的爬蟲配置

datasource2 = glue_context.create_dynamic_frame.from_catalog(database = glue_cityMapDB, table_name = glue_cityMapTbl, transformation_ctx = "datasource2")

datasource2.show()

print("Show the data source2 city DF")
cityDF=datasource2.toDF()
cityDF.show()

Output:

在這里,我從膠水 dydf 獲得 output - #datasource2.show() 但是在轉換為 pyspark DF 后,我得到以下錯誤

S3NativeFileSystem (S3NativeFileSystem.java:open(1208)) - Opening 's3://s3source/read/names.csv' for reading 2020-04-24 05:08:39,789 ERROR [Executor task launch worker for task

感謝是否有人可以提供幫助?

使用的文件是UTF-8編碼的。 您可以使用文件檢查或使用 inconv 或任何其他文本編輯器(如 sublime)進行轉換。

您還可以使用以下命令將文件作為 dataframe 讀取:

df = spark.read.csv('s3://s3source/read/names.csv')

然后使用 fromDF() 轉換為動態幀

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM