如何連接火花流與卡桑德拉？

Question

我正在使用

Cassandra v2.1.12
Spark v1.4.1
Scala 2.10

而卡桑德拉正在傾聽

rpc_address:127.0.1.1
rpc_port:9160

例如，要連接kafka和spark-streaming，每隔4秒聽一次kafka，我就有以下的spark工作

sc = SparkContext(conf=conf)
stream=StreamingContext(sc,4)
map1={'topic_name':1}
kafkaStream = KafkaUtils.createStream(stream, 'localhost:2181', "name", map1)

並且spark-streaming每隔4秒就會繼續收聽kafka經紀人並輸出內容。

同樣的方式， 我希望spark streaming能夠監聽cassandra，每隔4秒輸出指定表的內容 。

如何轉換上面的流代碼使其與cassandra而不是kafka一起使用？

非流媒體解決方案

我顯然可以在無限循環中繼續運行查詢，但這不是真正的流式傳輸嗎？

火花工作：

from __future__ import print_function
import time
import sys

from random import random
from operator import add
from pyspark.streaming import StreamingContext
from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext
from pyspark.streaming import *

sc = SparkContext(appName="sparkcassandra")
while(True):
    time.sleep(5)
    sqlContext = SQLContext(sc)
    stream=StreamingContext(sc,4)
    lines = stream.socketTextStream("127.0.1.1", 9160)
    sqlContext.read.format("org.apache.spark.sql.cassandra")\
                 .options(table="users", keyspace="keyspace2")\
                 .load()\
                 .show()

像這樣跑

sudo ./bin/spark-submit --packages \
datastax:spark-cassandra-connector:1.4.1-s_2.10 \
examples/src/main/python/sparkstreaming-cassandra2.py

我得到了粗糙的表格值

lastname|age|city|email|firstname

那么從cassandra“流式傳輸”數據的正確方法是什么？

Answer 1

目前，從C *流式傳輸數據的“正確方法”不是來自C *的流數據。相反，將消息隊列（如Kafka）放在C *和Stream之前通常更有意義。 C *不容易支持增量表讀取，但如果聚類鍵基於插入時間，則可以執行此操作。

如果您有興趣使用C *作為流媒體源，請務必查看並評論https://issues.apache.org/jira/browse/CASSANDRA-8844更改數據捕獲

哪個最有可能是你要找的。

如果你實際上只是想定期閱讀整個表並做一些事情，你可能最好只用一個cron作業啟動一個批處理操作，因為你真的無法恢復狀態。

Answer 2

目前Cassandra在Spark 1.6中不作為流媒體源本身支持，您必須為自己的情況實現自定義接收器（ listen to cassandra and output the contents of the specified table every say 4 seconds. ）。

請參閱實施指南：

Spark Streaming自定義接收器

如何連接火花流與卡桑德拉？

問題描述

非流媒體解決方案

2 個解決方案

解決方案1
2 2016-01-26 01:02:52

解決方案2
0 2016-01-26 00:47:23

如何連接火花流與卡桑德拉？

問題描述

非流媒體解決方案

2 個解決方案

解決方案1 2 2016-01-26 01:02:52

解決方案2 0 2016-01-26 00:47:23

解決方案1
2 2016-01-26 01:02:52

解決方案2
0 2016-01-26 00:47:23