在Scala / SPARK中将Dataframe转换为RDD的有效方法？

Question

我有一个dataFrame = [CUSTOMER_ID ,itemType, eventTimeStamp, valueType] RDD[(String, (String, String, Map[String, Int]))]通过执行以下操作将其转换为RDD[(String, (String, String, Map[String, Int]))] ：

 val tempFile = result.map( {
     r => {
         val customerId = r.getAs[String]( "CUSTOMER_ID" )
         val itemType = r.getAs[String]( "itemType" )
         val eventTimeStamp = r.getAs[String]( "eventTimeStamp" )
         val valueType = r.getAs[Map[String, Int]]( "valueType" )
         (customerId, (itemType, eventTimeStamp, valueType))
          }
          } )

由于我的投入很大，因此需要很多时间。 有什么有效的方法可以将df转换为RDD[(String, (String, String, Map[String, Int]))]吗？

Answer 1

您描述的操作将变得便宜。 进行一些getAs和分配一些元组几乎是免费的。 如果运行缓慢，则可能由于数据量大（7T）而不可避免。 还要注意，不能在RDD上执行Catalyst优化，因此在DataFrame操作的下游包括这种.map通常会阻止其他Spark快捷方式。

在Scala / SPARK中将Dataframe转换为RDD的有效方法？

问题描述

1 个解决方案

解决方案1
2 2016-10-30 21:37:56

在Scala / SPARK中将Dataframe转换为RDD的有效方法？

问题描述

1 个解决方案

解决方案1 2 2016-10-30 21:37:56

解决方案1
2 2016-10-30 21:37:56