[英]Write dataframe from spark cluster to cassandra cluster: Partitioning and Performance Tuning
[英]spark Cassandra tuning
如何在Spark Scala代码中为版本-DataStax Spark Cassandra Connector 1.6.3设置以下Cassandra写参数。
Spark版本-1.6.2
spark.cassandra.output.batch.size.rows
spark.cassandra.output.concurrent.writes
spark.cassandra.output.batch.size.bytes
spark.cassandra.output.batch.grouping.key
谢谢,钱德拉
在DataStax Spark Cassandra Connector 1.6.X中,您可以将这些参数作为SparkConf
一部分进行SparkConf
。
val conf = new SparkConf(true)
.set("spark.cassandra.connection.host", "192.168.123.10")
.set("spark.cassandra.auth.username", "cassandra")
.set("spark.cassandra.auth.password", "cassandra")
.set("spark.cassandra.output.batch.size.rows", "100")
.set("spark.cassandra.output.concurrent.writes", "100")
.set("spark.cassandra.output.batch.size.bytes", "100")
.set("spark.cassandra.output.batch.grouping.key", "partition")
val sc = new SparkContext("spark://192.168.123.10:7077", "test", conf)
您可以参考此自述文件以了解更多信息。
最灵活的方法是将这些变量添加到文件中,例如spark.conf :
spark.cassandra.output.concurrent.writes 10
等等...,然后在您的应用中使用以下内容创建spark上下文:
val conf = new SparkConf()
val sc = new SparkContext(conf)
最后,当您提交应用程序时,可以使用以下命令指定属性文件:
spark-submit --properties-file spark.conf ...
创建Spark上下文时,Spark会自动从spark.conf中读取您的配置。这样,您可以修改spark.conf上的属性,而无需每次都重新编译代码。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.