簡體   English   中英

AWS膠水大多為空字段

[英]aws glue dropping mostly null fields

我有一個數據框df。 它有幾列,大部分為空。 我正在使用以下代碼將其寫入s3存儲桶。 然后,我對s3存儲桶進行爬網以在datacatalog中獲取表模式。 我在搜尋數據時發現大部分為空的字段都被刪除了。 我檢查了輸出的json,發現某些記錄包含該字段,而另一些則沒有。 有人知道這個問題可能是什么嗎? 我想包括這些字段,即使它們大多為空。

碼:

# importing libraries

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

glueContext = GlueContext(SparkContext.getOrCreate())

from pyspark.sql.functions import col
from pyspark.sql.functions import first
from pyspark.sql.functions  import date_format
from pyspark.sql.functions import lit,StringType
from pyspark.sql.types import *
from pyspark.sql.functions import to_date,format_number,dayofmonth,hour,dayofyear,month,year,weekofyear,date_format,unix_timestamp
from pyspark.sql.functions import *


# write to table
df.write.json('s3://path/table')

為什么不使用AWS Glue寫入方法代替spark DF?

gumContext.write_dynamic_frame.from_options

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM