[英]Getting the number of records read from Cassandra table while using Spark Cassandra Connector
在寫入 Cassandra 表時,我得到以下有關寫入行數和所用時間的信息。 從日志中,我可以看到它來自 TableWriter class。 如何在從 Cassandra 讀取時找到相同的信息而不調用 RDD 上的操作? 我不確定使用哪種方法來閱讀。
2020-04-20 11:58:42 INFO com.datastax.spark.connector.writer.TableWriter.logInfo:35 - Wrote 24 rows to my_keyspace.mytable in 0.153 s.
將 spark dataframe 寫入 Cassandra 表的代碼
myDF.write
.format("org.apache.spark.sql.cassandra")
.mode(saveMode)
.options(Map("keyspace" -> "my_keyspace", "table" -> "my_table"))
.save()
將 Cassandra 表讀入 spark RDD 的代碼
val cassandraRDD = sparkSession.read
.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "my_table", "keyspace" -> "my_keyspace", "pushdown" -> "true"))
.load()
我也能夠在閱讀期間獲得指標。 不同之處在於這些指標的日志記錄級別。 在撰寫本文時,日志級別為 INFO,這就是我能夠在日志中找到此信息的原因。 但在寫入期間,這些指標會以 DEBUG 級別記錄。 我將 spark 日志記錄級別更改為 DEBUG 並且能夠看到這些指標。
參考 - https://community.datastax.com/questions/3512/getting-the-number-of-records-read-from-cassandra.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.