檢索任意行以獲得數據框中列的唯一組合

Question

我在數據框中有以下數據

col1    col2    col3    col4
1       desc1    v1      v3
2       desc2    v4      v2
1       desc1    v4      v2
2       desc2    v1      v3

我只需要col1，col2每個唯一組合的第一行，如下所示

Expected Output:

col1    col2    col3    col4
1       desc1    v1      v3
2       desc2    v4      v2

如何在pyspark（1.3.1版）中實現此目標？

我嘗試通過將數據幀轉換為rdd，然后應用map和reduceByKey函數，然后將結果rdd轉換回數據幀來實現相同的目的。 還有其他使用數據框功能執行上述操作的方法嗎？

Answer 1

如果您想要任意行，則可以嘗試使用first或last但這遠非美觀，我會認真考慮升級Spark：

from pyspark.sql.functions import col, first

df = sc.parallelize([
  (1, "desc1", "v1", "v3"), (2, "desc2", "v4", "v2"),
  (1, "desc1", "v4", "v2"), (2, "desc2", "v1", "v3")
]).toDF(["col1", "col2", "col3", "col4"])

keys = ["col1", "col2"]
values = ["col3", "col4"]
agg_exprs = [first(c).alias(c) for c in keys + ["vs_"]]
select_exprs = keys + [
    "vs_.col{0} AS {1}".format(i + 1, v) for (i, v) in enumerate(values)]

df_not_so_first = (df
  .selectExpr("struct({}) AS vs_".format(",".join(values)), *keys)
  .groupBy(*keys)
  .agg(*agg_exprs)
  .selectExpr(*select_exprs))

請注意，在此特定情況下， first 不要選擇任何特定的行，並且結果可能不確定。 此外，根據Spark版本的不同，可以分別安排各個聚合。 這意味着

df.groupBy("col1", "col2").agg(first("col3"), first("col4"))

不保證col3和col4將從同一行中選擇。

檢索任意行以獲得數據框中列的唯一組合

問題描述

1 個解決方案

解決方案1
2

檢索任意行以獲得數據框中列的唯一組合

問題描述

1 個解決方案

解決方案1 2

解決方案1
2