簡體   English   中英

Pyspark:未定義全局名稱

[英]Pyspark: global name is not defined

左外部聯接后的數據為以下格式:

    # (u'session_id', ((u'prod_id', u'user_id'), (u'prod_label', u'user_id')))

    # (u'u'session_id', ((u'20133', u'129001032'), None))
    # (u'u'session_id', ((u'2024574', u'61370212'), (u'Loc1', u'61370212')))

我現在要使用以下格式的數據:(user_id,prod_id,prod_label)

當我這樣做時,出現以下錯誤:

result_rdd = rdd1.map(lambda (session_id, (prod_id,  user_id), (prod_label, user_id)): user_id, prod_id, prod_label)


NameError: global name 'prod_id' is not defined

對於lambda表達式,這根本不是有效的語法。 如果要返回元組,則必須使用完整的括號:

rdd1.map(lambda (session_id, (prod_id,  user_id_1), (prod_label, user_id_2)): 
    (user_id, prod_id, prod_label))

還請記住,元組參數解壓縮不是可移植的,並且不允許重復的參數名稱,這將導致`SyntaxError。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM