簡體 English 中英

將JDBC數據庫數據保存為共享狀態Spark

[英]Saving JDBC db data as shared state Spark

原文 2019-03-25 18:44:35 2 1 scala/ apache-spark/ apache-spark-sql

我有一個MSSQL表作為數據源，我想以時間戳的形式保存某種處理偏移量（它是表的列之一）。 因此有可能處理來自最新偏移量的數據。 我想保存為Spark會話之間的某種共享狀態。 我在Spark會話中研究了共享狀態，但是，我找不到在共享狀態中存儲此偏移量的方法。 那么有可能使用現有的Spark構造來執行此任務嗎？

1 個解決方案

據我所知，尚無官方內置功能支持在Spark中會話之間傳遞數據。 作為替代方案，我將考慮以下選項/建議：

首先，offset列必須是MSSQL中的索引字段，以便能夠快速查詢它。
如果您的項目已經安裝並使用了內存系統（即Redis，Apache Ignite），則將偏移量存儲在該系統中。
我不會使用像Kafka這樣的消息隊列系統，因為一旦您消費了一條消息，您將需要重新發送它，因此這毫無意義。
作為解決方案，我寧願將其保存在文件系統或Hive中，即使這樣做會增加額外的開銷，因為該表中只有一個值。 當然，在文件系統的情況下，性能會好得多。

讓我知道是否需要進一步的信息

使用CLOB錯誤將JDBC解析為DashDB（DB2）

[英]Spark JDBC to DashDB (DB2) with CLOB errors

Jdbc 數據類型轉 Spark SQL 數據類型

[英]Jdbc data type to Spark SQL datatype

Spark Streaming 使用 Scala 中的 foreachRDD() 將數據保存到 MySQL

[英]Spark Streaming Saving data to MySQL with foreachRDD() in Scala

如何使用JDBC源在(Py)Spark中讀寫數據？

[英]How to use JDBC source to write and read data in (Py)Spark?

Spark如何處理涉及JDBC數據源的故障場景？

[英]How does Spark handle failure scenarios involving JDBC data source?

使用 Spark 1.6.2 JDBC 讀取 Oracle 數據的並行性

[英]Parallelism in reading Oracle data from using Spark 1.6.2 JDBC

使用JDBC驅動程序將Spark Dataset耗時的寫入過程寫入Oracle DB

[英]Time consuming write process of Spark Dataset into the Oracle DB using JDBC driver

Apache Spark-JDBC源

[英]Apache Spark - JDBC Sources

使用 jdbc 執行 Spark

[英]Spark execution using jdbc

Spark和分片JDBC數據源

[英]Spark and sharded JDBC datasources

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用CLOB錯誤將JDBC解析為DashDB（DB2） Jdbc 數據類型轉 Spark SQL 數據類型 Spark Streaming 使用 Scala 中的 foreachRDD() 將數據保存到 MySQL 如何使用JDBC源在(Py)Spark中讀寫數據？ Spark如何處理涉及JDBC數據源的故障場景？使用 Spark 1.6.2 JDBC 讀取 Oracle 數據的並行性使用JDBC驅動程序將Spark Dataset耗時的寫入過程寫入Oracle DB Apache Spark-JDBC源使用 jdbc 執行 Spark Spark和分片JDBC數據源

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM