Pyspark：未定義全局名稱

Question

左外部聯接后的數據為以下格式：

    # (u'session_id', ((u'prod_id', u'user_id'), (u'prod_label', u'user_id')))

    # (u'u'session_id', ((u'20133', u'129001032'), None))
    # (u'u'session_id', ((u'2024574', u'61370212'), (u'Loc1', u'61370212')))

我現在要使用以下格式的數據：（user_id，prod_id，prod_label）

當我這樣做時，出現以下錯誤：

result_rdd = rdd1.map(lambda (session_id, (prod_id,  user_id), (prod_label, user_id)): user_id, prod_id, prod_label)


NameError: global name 'prod_id' is not defined

Answer 1

對於lambda表達式，這根本不是有效的語法。 如果要返回元組，則必須使用完整的括號：

rdd1.map(lambda (session_id, (prod_id,  user_id_1), (prod_label, user_id_2)): 
    (user_id, prod_id, prod_label))

還請記住，元組參數解壓縮不是可移植的，並且不允許重復的參數名稱，這將導致`SyntaxError。

Pyspark：未定義全局名稱

問題描述

1 個解決方案

解決方案1
2 已采納 2015-12-22 16:59:17

Pyspark：未定義全局名稱

問題描述

1 個解決方案

解決方案1 2 已采納 2015-12-22 16:59:17

解決方案1
2 已采納 2015-12-22 16:59:17