繁体   English   中英

如何在 Palantir Foundry 的 Code Workbook 中使用 sparkcontext 创建一个空数据集?

[英]How can I create an empty dataset using sparkcontext in Code Workbook in Palantir Foundry?

如何在代码工作簿中使用 spark 上下文创建一个最低限度的 pysaprk dataframe。 代码存储库中的等效命令如下:

my_df = ctx.spark_session.createDataFrame([('1',)], ["a"])

代码工作簿以 Spark session 的形式注入全局spark ,而不是ctx中的转换上下文。 您可以在 Python 变换中使用它(“新变换”>“Python 代码”):

def my_dataframe():
    return spark.createDataFrame([('1',)], ["a"])

或使用已定义的架构:

from pyspark.sql import types as T
from datetime import datetime

SCHEMA = T.StructType([
    T.StructField('entity_name', T.StringType()),
    T.StructField('thing_value', T.IntegerType()),
    T.StructField('created_at', T.TimestampType()),
])

def my_dataframe():
    return spark.createDataFrame([("Name", 3, datetime.now())], SCHEMA)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM