[英]Converting CassandraTableScanRDD org.apache.spark.rdd.RDD
我有以下情况。 我有一个很大的 Cassandra 表(有很多列),我想用 Spark 处理它。 我只想将选定的列加载到 Spark(在 Cassandra 服务器本身上应用选择和过滤)
val eptable =
sc.cassandraTable("test","devices").select("device_ccompany","device_model","devi
ce_type")
上面的语句给出了一个 CassandraTableScanRDD 但我如何将它转换为 DataSet/DataFrame ?
我还有其他方法可以对列进行服务器端过滤并获取数据帧吗?
在 DataStax Spark Cassandra Connector 中,您可以将 Cassandra 数据作为Dataset
读取,并在服务器端修剪列,如下所示:
val df = spark
.read
.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "devices", "keyspace" -> "test" ))
.load()
val dfWithColumnPruned = df
.select("device_ccompany","device_model","device_type")
请注意,我在阅读后所做的selection
操作是使用 Catalyst 优化推送到服务器端的。 有关更多信息,请参阅此文档。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.