簡體   English   中英

使用 spark Hive 和任何其他帶有 NoSQL 或 SQL 數據庫的 Spark 有什么區別?

[英]What is the difference between using spark Hive and any other Spark with NoSQL or SQL database?

我是 Spark 的新手。 我一直在嘗試使用 Spark Hive、Spark MySQL 或 Spark Cassandra。但是,我仍然不知道它們之間的區別,哪個更慢,哪個更貴,它們的缺點是什么,它們實際上是如何工作的。

任何人都可以幫我弄清楚它們之間的區別,如果可能的話,我也想要一些例子!

謝謝大家!

要從 Spark 應用程序連接到 Cassandra 數據庫,您需要使用Spark Cassandra 連接器庫。 我不知道其他選項可以讓您連接到 Cassandra。

下面是一個示例,展示了如何將 Spark 3.2 集群中的連接器與spark-shell一起使用:

$ spark-shell
  --packages com.datastax.spark:spark-cassandra-connector_2.12:3.2.0
  --master <master_url>
  --conf spark.cassandra.connection.host=cass_ip
  --conf spark.cassandra.auth.username=cass_user
  --conf spark.cassandra.auth.password=cass_pass
  --conf spark.sql.extensions=com.datastax.spark.connector.CassandraSparkExtensions

下面是一個示例代碼,您可以在 Spark shell 中運行它來計算鍵空間的數量:

val rdd = sc.cassandraTable("system_schema","keyspaces")
println("Row count: " + rdd.count)

請將鼠標懸停在標簽上,然后單擊“ Watch tag ”按鈕,支持 Apache Cassandra 社區。 謝謝!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM