簡體   English   中英

如何在 Palantir Foundry 的 Code Workbook 中使用 sparkcontext 創建一個空數據集?

[英]How can I create an empty dataset using sparkcontext in Code Workbook in Palantir Foundry?

如何在代碼工作簿中使用 spark 上下文創建一個最低限度的 pysaprk dataframe。 代碼存儲庫中的等效命令如下:

my_df = ctx.spark_session.createDataFrame([('1',)], ["a"])

代碼工作簿以 Spark session 的形式注入全局spark ,而不是ctx中的轉換上下文。 您可以在 Python 變換中使用它(“新變換”>“Python 代碼”):

def my_dataframe():
    return spark.createDataFrame([('1',)], ["a"])

或使用已定義的架構:

from pyspark.sql import types as T
from datetime import datetime

SCHEMA = T.StructType([
    T.StructField('entity_name', T.StringType()),
    T.StructField('thing_value', T.IntegerType()),
    T.StructField('created_at', T.TimestampType()),
])

def my_dataframe():
    return spark.createDataFrame([("Name", 3, datetime.now())], SCHEMA)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM