繁体 English 中英

SPARK：仅在每个分区中删除重复项

[英]SPARK: dropDuplicates in every partitions only

原文 2017-02-14 07:07:27 0 1 apache-spark/ dataframe/ pyspark

我想在每个分区中dropDuplicates ，而不是完整的DataFrame。

PySpark 有可能吗？ 谢谢。

1 个解决方案

import pyspark.sql.functions as f
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()

基本上你使用 spark_partition_id 添加一列分区 id 然后做不同的，它会分别考虑不同的分区

Spark dropDuplicates源代码

[英]Spark dropDuplicates source code

Apache Spark SQL上下文dropDuplicates

[英]Apache Spark SQL context dropDuplicates

自制DataFrame聚合/ dropDuplicates Spark

[英]Homemade DataFrame aggregation/dropDuplicates Spark

Spark 如何仅在分区内加入

[英]Spark How to Join Only Within Partitions

仅覆盖分区 spark 数据集中的某些分区

[英]Overwrite only some partitions in a partitioned spark Dataset

使用Scala在Spark中使用dropDuplicates（）和except（）方法的问题

[英]Issue with dropDuplicates() and except() method in Spark using Scala

Spark SQL DataFrame - distinct() 与 dropDuplicates()

[英]Spark SQL DataFrame - distinct() vs dropDuplicates()

基于JSON数组字段的重复

[英]spark dropDuplicates based on json array field

Hive分区到Spark分区

[英]Hive partitions to Spark partitions

Spark SQL 中 Spark Dataframe 的 dropDuplicates 等效于什么？

[英]What is the equivalent of Spark Dataframe's dropDuplicates in Spark SQL?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark dropDuplicates源代码 Apache Spark SQL上下文dropDuplicates 自制DataFrame聚合/ dropDuplicates Spark Spark 如何仅在分区内加入仅覆盖分区 spark 数据集中的某些分区使用Scala在Spark中使用dropDuplicates（）和except（）方法的问题 Spark SQL DataFrame - distinct() 与 dropDuplicates() 基于JSON数组字段的重复 Hive分区到Spark分区 Spark SQL 中 Spark Dataframe 的 dropDuplicates 等效于什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM