[英]Pyspark: global name is not defined
左外部聯接后的數據為以下格式:
# (u'session_id', ((u'prod_id', u'user_id'), (u'prod_label', u'user_id')))
# (u'u'session_id', ((u'20133', u'129001032'), None))
# (u'u'session_id', ((u'2024574', u'61370212'), (u'Loc1', u'61370212')))
我現在要使用以下格式的數據:(user_id,prod_id,prod_label)
當我這樣做時,出現以下錯誤:
result_rdd = rdd1.map(lambda (session_id, (prod_id, user_id), (prod_label, user_id)): user_id, prod_id, prod_label)
NameError: global name 'prod_id' is not defined
對於lambda表達式,這根本不是有效的語法。 如果要返回元組,則必須使用完整的括號:
rdd1.map(lambda (session_id, (prod_id, user_id_1), (prod_label, user_id_2)):
(user_id, prod_id, prod_label))
還請記住,元組參數解壓縮不是可移植的,並且不允許重復的參數名稱,這將導致`SyntaxError。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.