繁体 English 中英

使用Apache Spark进行实时分析

[英]Real time analytic using Apache Spark

原文 2015-03-31 09:23:49 1 1 java/ cassandra/ apache-spark/ bigdata/ cql3

我正在使用Apache Spark分析来自Cassandra的数据，并将通过根据查询在Cassandra中设计新表将数据插入回到Cassandra中。 我想知道火花是否可以实时分析？ 如果是，那怎么办？ 我已经阅读了很多有关此的教程，但一无所获。

我想执行分析并将数据插入表中时立即插入Cassandra。

1 个解决方案

Spark Streaming可以实现这一点，您应该查看Spark Cassandra Connector随附的演示和文档。

https://github.com/datastax/spark-cassandra-connector

这包括对流的支持，以及对动态创建新表的支持。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md

Spark Streaming扩展了核心API，以允许对实时数据流进行高吞吐量，容错的流处理。 可以从许多来源（例如Akka，Kafka，Flume，Twitter，ZeroMQ，TCP套接字等）中提取数据。结果可以存储在Cassandra中。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md#saving-rdds-as-new-tables

使用saveAsCassandraTable方法自动创建具有给定名称的新表并将RDD保存到其中。 您要保存到的键空间必须存在。 以下代码将在keyspace测试中创建一个新表word_new，其中包含word和count列，其中word成为主键：

案例类WordCount（word：String，count：Long）val集合= sc.parallelize（Seq（WordCount（“ dog”，50），WordCount（“ cow”，60）））collection.saveAsCassandraTable（“ test”，“ words_new “，SomeColumns（” word“，” count“））