PySpark：對列表中的元素進行分組

Question

所需的輸出-[((1,2),(3,4),5)]

rdd = sc.parallelize([1,2,3,4,5])
rdd.map(lambda x: ((x[0],x[1]),(x[2],x[3]),x[4])).collect()

但是，我得到了錯誤——

TypeError: 'int' object is not subscriptable

at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:456)
at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRunner.scala:592)
at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRunner.scala:575)
at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:410)
at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
at scala.collection.Iterator$class.foreach(Iterator.scala:891)

請更正代碼。 我在 Spark 中使用 Python

Answer 1

根據 Mohamed Ali JAMAOUI 的評論：

“如果你想每行有一個列表，在構造 rdd 時傳遞一個列表列表，就像這樣 rdd = sc.parallelize([[1,2,3,4,5]])”

PySpark：對列表中的元素進行分組

問題描述

1 個解決方案

解決方案1
1 2020-02-05 22:17:29

PySpark：對列表中的元素進行分組

問題描述

1 個解決方案

解決方案1 1 2020-02-05 22:17:29

解決方案1
1 2020-02-05 22:17:29