[英]How can I create an empty dataset from on a PySpark schema in Palantir Foundry?
[英]How can I create an empty dataset using sparkcontext in Code Workbook in Palantir Foundry?
如何在代码工作簿中使用 spark 上下文创建一个最低限度的 pysaprk dataframe。 代码存储库中的等效命令如下:
my_df = ctx.spark_session.createDataFrame([('1',)], ["a"])
代码工作簿以 Spark session 的形式注入全局spark
,而不是ctx
中的转换上下文。 您可以在 Python 变换中使用它(“新变换”>“Python 代码”):
def my_dataframe():
return spark.createDataFrame([('1',)], ["a"])
或使用已定义的架构:
from pyspark.sql import types as T
from datetime import datetime
SCHEMA = T.StructType([
T.StructField('entity_name', T.StringType()),
T.StructField('thing_value', T.IntegerType()),
T.StructField('created_at', T.TimestampType()),
])
def my_dataframe():
return spark.createDataFrame([("Name", 3, datetime.now())], SCHEMA)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.