簡體   English   中英

使用 Spark Cassandra 連接器時獲取從 Cassandra 表讀取的記錄數

[英]Getting the number of records read from Cassandra table while using Spark Cassandra Connector

在寫入 Cassandra 表時,我得到以下有關寫入行數和所用時間的信息。 從日志中,我可以看到它來自 TableWriter class。 如何在從 Cassandra 讀取時找到相同的信息而不調用 RDD 上的操作? 我不確定使用哪種方法來閱讀。

2020-04-20 11:58:42 INFO  com.datastax.spark.connector.writer.TableWriter.logInfo:35 - Wrote 24 rows to my_keyspace.mytable in 0.153 s.


將 spark dataframe 寫入 Cassandra 表的代碼

myDF.write
  .format("org.apache.spark.sql.cassandra")
  .mode(saveMode)
  .options(Map("keyspace" -> "my_keyspace", "table" -> "my_table"))
  .save()

將 Cassandra 表讀入 spark RDD 的代碼

val cassandraRDD = sparkSession.read
      .format("org.apache.spark.sql.cassandra")
      .options(Map( "table" -> "my_table", "keyspace" -> "my_keyspace", "pushdown" -> "true"))
      .load()

我也能夠在閱讀期間獲得指標。 不同之處在於這些指標的日志記錄級別。 在撰寫本文時,日志級別為 INFO,這就是我能夠在日志中找到此信息的原因。 但在寫入期間,這些指標會以 DEBUG 級別記錄。 我將 spark 日志記錄級別更改為 DEBUG 並且能夠看到這些指標。

參考 - https://community.datastax.com/questions/3512/getting-the-number-of-records-read-from-cassandra.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM