[英]What is the difference between using spark Hive and any other Spark with NoSQL or SQL database?
我是 Spark 的新手。 我一直在嘗試使用 Spark Hive、Spark MySQL 或 Spark Cassandra。但是,我仍然不知道它們之間的區別,哪個更慢,哪個更貴,它們的缺點是什么,它們實際上是如何工作的。
任何人都可以幫我弄清楚它們之間的區別,如果可能的話,我也想要一些例子!
謝謝大家!
要從 Spark 應用程序連接到 Cassandra 數據庫,您需要使用Spark Cassandra 連接器庫。 我不知道其他選項可以讓您連接到 Cassandra。
下面是一個示例,展示了如何將 Spark 3.2 集群中的連接器與spark-shell
一起使用:
$ spark-shell
--packages com.datastax.spark:spark-cassandra-connector_2.12:3.2.0
--master <master_url>
--conf spark.cassandra.connection.host=cass_ip
--conf spark.cassandra.auth.username=cass_user
--conf spark.cassandra.auth.password=cass_pass
--conf spark.sql.extensions=com.datastax.spark.connector.CassandraSparkExtensions
下面是一個示例代碼,您可以在 Spark shell 中運行它來計算鍵空間的數量:
val rdd = sc.cassandraTable("system_schema","keyspaces")
println("Row count: " + rdd.count)
請將鼠標懸停在cassandra標簽上,然后單擊“ Watch tag
”按鈕,支持 Apache Cassandra 社區。 謝謝!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.