如何在Spark中将Cassandra表中的行作为Dataframe加载？

Question

我可以将整个Cassandra表加载为数据框，如下所示

val tableDf = sparkSession.read
      .format("org.apache.spark.sql.cassandra")
      .options(Map( "table" -> table, "keyspace" -> keyspace))
      .load()

但是我找不到一种通过主键获取行的方法，例如

select * from table where key = ''

有没有办法做到这一点？

Answer 1

val tableDf = sparkSession.read
      .format("org.apache.spark.sql.cassandra")
      .options(Map( "table" -> table, "keyspace" -> keyspace))
      .load()
      .filter("key='YOUR_KEY'")

使用此spark-cassandra-connector将使用谓词下推，并且仅获取所需的数据。

数据框和谓词下推

Answer 2

Java的相同方法是：

SparkSession sparkSession = SparkSession.builder().appName("Spark Sql Job").master("local[*]")
                .config("spark.sql.warehouse.dir", "file:///c:/tmp/spark-warehouse")
                .config("spark.cassandra.connection.host", "localhost")
                .config("spark.cassandra.connection.port", "9042").getOrCreate();
        SQLContext sqlCtx = sparkSession.sqlContext();
        Dataset<Row> rowsDataset = sqlCtx.read().format("org.apache.spark.sql.cassandra").option("keyspace", "myschema")
                .option("table", "mytable").load();
        rowsDataset.show();

我相信scala应该是一样的

如何在Spark中将Cassandra表中的行作为Dataframe加载？

问题描述

2 个解决方案

解决方案1
6 2017-09-28 11:02:27

解决方案2
0 2019-03-20 04:22:07

如何在Spark中将Cassandra表中的行作为Dataframe加载？

问题描述

2 个解决方案

解决方案1 6 2017-09-28 11:02:27

解决方案2 0 2019-03-20 04:22:07

解决方案1
6 2017-09-28 11:02:27

解决方案2
0 2019-03-20 04:22:07