更新cassandra表中的一列

Question

我有一个卡桑德拉表person_master（personId：int，customerId：Int，firstName：String，lastName：String，mrids：Set）primaryKey（personId和customerID）

假设我有一个结构为[personId，customerId，firstName，lastname，messageType：String，source：String，sourceType：String]的输入RDD。

假设RDD的值是：[1001,119，None，None，{abc.xyz}，而cassandra行的值是[1001,119，Vikash，Singh，{aaa.bbb}]

我想基于RDD值获取cassandra行，并更新cassandra表的mrids列，并使用cassandra行中的所有其他列。

例如，在此，我希望最终的RDD值为[1001,119，Vikash，Singh，{aaa.bbb，abc.xyz}]，稍后我将其更新为cassandra。

有人可以使用cassandra Connector在Spark中给我解决方案吗？

Answer 1

假设sc是sparkContext之类的，

val sparkConf = new SparkConf().setMaster(SPARK_MASTER)
                            .setAppName(SPARK_SCALA_APP_NAME)
                            .setJars(SPARK_SCALA_JAR)
sparkConf.set("spark.cassandra.connection.host", value)
sparkConf.set("spark.cassandra.auth.username", value)
sparkConf.set("spark.cassandra.auth.password", value)
val sc = new SparkContext(sparkConf)

您可以使用或忽略where子句（仅当其分区键可使用where）

val selectedRow = sc.cassandraTable("keyspace", "tableName")
      .select("key", "column2", "column3")
      .where("key IN ?", keys)
      .as((key: String, column2: String, column3: Integer)
          =>(key, column2, column3))

对rdd进行过滤和修改，然后将其保存，

selectedRow.saveToCassandra("keyspace",
                           "tableName",
                           SomeColumns("key", "column2", "column3"))

更新cassandra表中的一列

问题描述

1 个解决方案

解决方案1
0 2016-04-18 05:41:53

更新cassandra表中的一列

问题描述

1 个解决方案

解决方案1 0 2016-04-18 05:41:53

解决方案1
0 2016-04-18 05:41:53