通过谓词下推连接两个数据集

Question

我有一个由RDD创建的数据集 ，并尝试将其与另一个由Phoenix表创建的数据集结合起来：

val dfToJoin = sparkSession.createDataset(rddToJoin)
val tableDf = sparkSession
  .read
  .option("table", "table")
  .option("zkURL", "localhost")
  .format("org.apache.phoenix.spark")
  .load()
val joinedDf = dfToJoin.join(tableDf, "columnToJoinOn")

当我执行它时，似乎整个数据库表都已加载以进行连接。

有没有一种方法可以进行这样的联接，以便在数据库上而不是在spark中进行过滤？

另外： dfToJoin小于表，我不知道这是否重要。

编辑：基本上我想将我的Phoenix表与通过spark创建的数据集结合起来，而无需将整个表提取到执行程序中。

Edit2：这是实际计划：

*Project [FEATURE#21, SEQUENCE_IDENTIFIER#22, TAX_NUMBER#23, 
         WINDOW_NUMBER#24, uniqueIdentifier#5, readLength#6]
 +- *SortMergeJoin [FEATURE#21], [feature#4], Inner
     :- *Sort [FEATURE#21 ASC NULLS FIRST], false, 0
     :  +- Exchange hashpartitioning(FEATURE#21, 200)
     :     +- *Filter isnotnull(FEATURE#21)
     :        +- *Scan PhoenixRelation(FEATURES,localhost,false) 

    [FEATURE#21,SEQUENCE_IDENTIFIER#22,TAX_NUMBER#23,WINDOW_NUMBER#24] 
    PushedFilters: [IsNotNull(FEATURE)], ReadSchema: 

    struct<FEATURE:int,SEQUENCE_IDENTIFIER:string,TAX_NUMBER:int,
    WINDOW_NUMBER:int>
   +- *Sort [feature#4 ASC NULLS FIRST], false, 0
  +- Exchange hashpartitioning(feature#4, 200)
     +- *Filter isnotnull(feature#4)
        +- *SerializeFromObject [assertnotnull(input[0, utils.CaseClasses$QueryFeature, true], top level Product input object).feature AS feature#4, staticinvoke(class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, utils.CaseClasses$QueryFeature, true], top level Product input object).uniqueIdentifier, true) AS uniqueIdentifier#5, assertnotnull(input[0, utils.CaseClasses$QueryFeature, true], top level Product input object).readLength AS readLength#6]
           +- Scan ExternalRDDScan[obj#3]

如您所见，equals-filter不包含在push-filters列表中，因此很明显没有谓词下推发生。

Answer 1

Spark会将Phoenix表记录提取给适当的执行者（ 而不是整个表提取给一个执行者 ）

由于在Phoenix表df上没有直接filter ，因此我们在物理计划中仅看到*Filter isnotnull(FEATURE#21) 。

正如您所提到的，对它应用过滤器后，Phoenix表数据会更少。 通过在其他数据集中找到feature_ids ，将过滤器推入feature列上的凤凰表。

//This spread across workers  - fully distributed
val dfToJoin = sparkSession.createDataset(rddToJoin)

//This sits in driver - not distributed
val list_of_feature_ids = dfToJoin.dropDuplicates("feature")
  .select("feature")
  .map(r => r.getString(0))
  .collect
  .toList

//This spread across workers  - fully distributed
val tableDf = sparkSession
  .read
  .option("table", "table")
  .option("zkURL", "localhost")
  .format("org.apache.phoenix.spark")
  .load()
  .filter($"FEATURE".isin(list_of_feature_ids:_*)) //added filter

//This spread across workers  - fully distributed
val joinedDf = dfToJoin.join(tableDf, "columnToJoinOn")

joinedDf.explain()

通过谓词下推连接两个数据集

问题描述

1 个解决方案

解决方案1
4 已采纳 2017-09-20 10:34:42

通过谓词下推连接两个数据集

问题描述

1 个解决方案

解决方案1 4 已采纳 2017-09-20 10:34:42

解决方案1
4 已采纳 2017-09-20 10:34:42