[英]Spark-Scala with Cassandra
我是Spark,Scala和Cassandra的初學者。 我正在使用ETL編程。 現在我的項目ETL POC需要Spark,Scala和Cassandra。 我在/ usr / local / Cassandra / *中用我的ubuntu系統配置了Cassandra,然后安裝了Spark和Scala。 現在,我使用Scala編輯器開始工作,我只是在着陸位置創建了一個文件,但是此后,我試圖與Scala中的cassandra連接,但是我沒有得到如何在目標位置連接和處理數據的幫助數據庫?。
有人幫我這是正確的方法嗎? 還是我錯了? 請幫助我了解如何通過上述組合實現此過程。
提前致謝!
您可以使用spark-cassandra-connector輕松執行此操作
通過閱讀說明將spark-cassandra-connector添加到pom或sbt中,然后以這種方式工作
將此導入到您的文件中
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
import org.apache.spark.sql.cassandra._
火花斯卡拉文件
object SparkCassandraConnector {
def main(args: Array[String]) {
val conf = new SparkConf(true)
.setAppName("UpdateCassandra")
.setMaster("spark://spark:7077") // spark server
.set("spark.cassandra.input.split.size_in_mb","67108864")
.set("spark.cassandra.connection.host", "192.168.3.167") // cassandra host
.set("spark.cassandra.auth.username", "cassandra")
.set("spark.cassandra.auth.password", "cassandra")
// connecting with cassandra for spark and sql query
val spark = SparkSession.builder()
.config(conf)
.getOrCreate()
// Load data from node publish table
val df = spark
.read
.cassandraFormat( "table_nmae", "keyspace_name")
.load()
}
}
這將適用於spark 2.2和cassandra 2
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.