繁体 English 中英

如何使用PySpark从SPARK中的RDD获取特定值

[英]How to get specific values from RDD in SPARK with PySpark

原文 2016-09-08 15:24:02 0 1 python/ apache-spark/ pyspark

以下是我的RDD，有5个字段

[('sachin', 200, 10,4,True), ('Raju', 400, 40,4,True), ('Mike', 100, 50,4,False) ]

在这里，我只需要获取第一，第三和第五字段，如何在PySpark中进行操作。 预期效果如下。 我以几种方式尝试了reduceByKey，无法实现

Sachin,10,True
Raju,40,True
Mike,50,False

1 个解决方案

有一个简单的地图？

rdd.map(lambda x: (x[0], x[2], x[4]))

Spark 1.6：如何将从Scala jar生成的RDD转换为pyspark RDD？

[英]Spark 1.6: How do convert an RDD generated from a Scala jar to a pyspark RDD?

如何从pyspark.rdd.PipelinedRDD过滤出值？

[英]How to filter out values from pyspark.rdd.PipelinedRDD?

如何在pyspark中获取RDD的键值输出

[英]How to get the key value output from RDD in pyspark

如何从 pyspark 中的 RDD 中获取不同的键作为列表？

[英]How to get distinct keys as a list from an RDD in pyspark?

如何使用Python动态地从RDD获取值？

[英]How to get values from RDD dynamically with Python?

使用 pyspark 中的嵌套元素从 RDD 获取平面 RDD

[英]Get a flat RDD from RDD with nested elements in pyspark

Pyspark：从另一个RDD获取一个RDD元素的索引

[英]Pyspark: Get indexes of an RDD elements from another RDD

从SPARK中的另一个RDD返回最大N个值的RDD

[英]Return RDD of largest N values from another RDD in SPARK

如何通过pyspark以gzip格式保存spark RDD

[英]How to save a spark RDD in gzip format through pyspark

pyspark - spark - 如何使用 RDD 创建并行多阶段任务

[英]pyspark - spark - how to create a parallel multistage task using RDD

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark 1.6：如何将从Scala jar生成的RDD转换为pyspark RDD？如何从pyspark.rdd.PipelinedRDD过滤出值？如何在pyspark中获取RDD的键值输出如何从 pyspark 中的 RDD 中获取不同的键作为列表？如何使用Python动态地从RDD获取值？使用 pyspark 中的嵌套元素从 RDD 获取平面 RDD Pyspark：从另一个RDD获取一个RDD元素的索引从SPARK中的另一个RDD返回最大N个值的RDD 如何通过pyspark以gzip格式保存spark RDD pyspark - spark - 如何使用 RDD 创建并行多阶段任务

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM