繁体   English   中英

使用Apache Spark进行实时分析

[英]Real time analytic using Apache Spark

我正在使用Apache Spark分析来自Cassandra的数据,并将通过根据查询在Cassandra中设计新表将数据插入回到Cassandra中。 我想知道火花是否可以实时分析? 如果是,那怎么办? 我已经阅读了很多有关此的教程,但一无所获。

我想执行分析并将数据插入表中时立即插入Cassandra。

Spark Streaming可以实现这一点,您应该查看Spark Cassandra Connector随附的演示和文档。

https://github.com/datastax/spark-cassandra-connector

这包括对流的支持,以及对动态创建新表的支持。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md

Spark Streaming扩展了核心API,以允许对实时数据流进行高吞吐量,容错的流处理。 可以从许多来源(例如Akka,Kafka,Flume,Twitter,ZeroMQ,TCP套接字等)中提取数据。结果可以存储在Cassandra中。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md#saving-rdds-as-new-tables

使用saveAsCassandraTable方法自动创建具有给定名称的新表并将RDD保存到其中。 您要保存到的键空间必须存在。 以下代码将在keyspace测试中创建一个新表word_new,其中包含word和count列,其中word成为主键:

案例类WordCount(word:String,count:Long)val集合= sc.parallelize(Seq(WordCount(“ dog”,50),WordCount(“ cow”,60)))collection.saveAsCassandraTable(“ test”,“ words_new “,SomeColumns(” word“,” count“))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM