标签[spark-cassandra-connector]

我们有Cassandra桌人， Dataframe 是，在 Spark 中，我们想将 dataframe 保存到表中，其中 dataframe 对同一个主键有多个记录。 Q 1：Cassandra 连接器如何在内部处理行的排序？ Q2：我们正在从kafka读取数据并保存到Cassandra ...

为什么在带有 Cassandra 集群的 java 代码中使用 Spark Cassandra 连接器时速度这么慢？ - Why is so slow when use Spark Cassandra Connector in java code with Cassandra cluster?

我们在小数据上测试了很多场景。如果使用cassandra不带集群安装，那么一切正常，但是如果我们在集群中使用cassandra，那么与function一样，它会花费大约15秒。我们的java代码就是示例代码。纯粹调用dataset.collectAsList()或者dataset.head(1 ...

Spark Structured Streaming + pyspark app 返回“Initial job has not accepted any resources” - Spark Structured Streaming + pyspark app returns "Initial job has not accepted any resources"

运行码源代码错误代码我检查了 Spark UI，工人没有问题。这是我的 Spark 状态 [![在此处输入图片描述][2]][2] 我的计划是 kafka(DBIP)--readStream-->LOCAL(DriverIP)--writeStream-->Spark&amp ...

Spark + Kafka 应用程序，获取“CassandraCatalogException：尝试写入 C* 表但缺少主键列：[col1、col2、col3]” - Spark + Kafka app, getting "CassandraCatalogException: Attempting to write to C* Table but missing primary key columns: [col1,col2,col3]"

运行环境源码放在local和kafka,local,writeStream是不一样的 IP \ 表列是： df.printSchema 是抱歉，我尝试单独解决但找不到任何解决方案。运行代码源代码：我收到此错误： com.datastax.spark.connector.datasou ...

在 Databricks 中的运行时更改 spark 配置 - Change spark configuration at runtime in Databricks

是否可以在运行时更改 spark 配置属性？我正在使用数据块，我的目标是读取用于生产的 claster 中使用的一些 cassandra 表，并在一些操作后将结果写入另一个用于开发的集群中的另一个 cassandra 表中。现在我通过 spark 配置属性 usign 连接到我的 cassand ...

将粘合作业连接到 Amazon 键空间 - Connect glue job to Amazon keyspaces

我正在尝试将 AWS 胶水作业连接到 Amazon 键空间。无论如何，是否可以使用 pyspark 连接和处理这些表。 PS：由于组织限制，我不能使用 AWS cli。 ...

将 DataFrame 写入 Cassandra，得到 CassandraCatalogException "Attempting to write to C* Table but missing..." - Writing DataFrame to Cassandra, getting CassandraCatalogException "Attempting to write to C* Table but missing ..."

我正在尝试编写一个 csv 文件，该文件存储在 cassandra 表中的 Azure Blob 存储中。我在 Databricks 上使用 pyspark。理论上，我在创建表和编写一些 dataframe 时没有问题，两者都“手动”创建并由 blob 存储获取。在这两种情况下，数据帧都非常 ...

如何为 repartitionByCassandraReplica.JoinWIthCassandraTable() 与 DirectJoin=AlwaysOn 计算输入大小？ - How is the input size calculated for repartitionByCassandraReplica.JoinWIthCassandraTable() vs DirectJoin=AlwaysOn?

所以我注意到，当调用 repartitionByCassandraReplica().JoinWIthCassandraTable() 时，SparkUI 的 Stages 选项卡中的输入大小与 DirectJoin 始终打开时得到的输入大小不同。我知道这两个遵循不同的策略来确定 Spark 分 ...

如何在 Java 中使用 leftJoinWithCassandraTable()？ - How can I use leftJoinWithCassandraTable() in Java?

我在 java 项目中使用 datastax spark Cassandra 连接器 2.12-3.1.0。这就是我创建表的 RDD 的方式：我想使用leftJoinWithCassandraTable但不存在于RDDFunctions中的RDDFunctions 。如何在 java 中使用 ...

Spark 独立应用程序实现 PCA，然后挂起 10-12 分钟，然后才从 memory 中删除 RDD - Spark standalone application implementes PCA, then hangs for 10-12 minutes and only then removes RDD from memory

我有一个 16 节点集群，其中每个节点都安装了 Spark 和 Cassandra，复制因子为 3，spark.sql.shuffle.partitions 为 96，Spark-Cassandra-Connector 3.1.0。我正在数据集和 Cassandra 表之间执行 Spark-Jo ...

我可以使用 Spark 从 Cassandra 更快地读取数据吗？ - Can I read data faster from Cassandra using Spark?

我正在使用 cassandra 数据库，并且我有一个 python 脚本用于从 cassandra 数据库中读取数据。脚本做得很好。我想知道如果我使用 spark，我可以更快地从 Cassandra 读取数据（使用 cql ）吗？ ...

使用 Spark-Cassandra-Connector 时 Spark 分区会发生什么 - What happens with Spark partitions when using Spark-Cassandra-Connector

因此，我有一个 16 节点集群，其中每个节点都安装了 Spark 和 Cassandra，复制因子为 3，spark.sql.shuffle.partitions 为 96。我正在使用 Spark-Cassandra 连接器 3.0.0 进行repartitionByCassandraReplica ...

Kafka 到 Spark 和 Cassandra Spark 结构化流上的接收器在更新模式下不起作用 - Kafka to Spark and Cassandra Sink on a Spark structured streaming doesn't work on update mode

我正在尝试构建以下 spark 流式 spark 作业，该作业将从 kafka 读取，执行聚合（计数每个最小窗口）并存储在 Cassandra 中。我在更新模式上遇到错误。我的火花源是 cassandra 中表的架构如下适用于控制台上的更新模式打印，但在更新 cassandra 时失败并出现 ...

Spark Cassandra 加入ClassCastException - Spark Cassandra Join ClassCastException

我正在尝试连接两个 Cassandra 表： t1.join(t2, Seq("some column"), "left")我收到以下错误消息：我正在使用 cassandra v3.11.13 和 Spark 3.3.0。代码依赖：非常感谢您的帮助 ...

Spark Cassandra 连接器是否有替代品？ - Is there an alternative to the Spark Cassandra connector?

我的问题其实很简单。我们可以在不使用 Spark-Cassandra-Connector 的情况下使用 Spark 从/向 Cassandra 数据库读取/写入数据吗？还有其他我们可以使用的东西吗？如果是这样，它们之间是否有任何性能比较？ ...

Spark-Cassandra：repartitionByCassandraReplica 或将数据集转换为 JavaRDD 并返回不维护分区数？ - Spark-Cassandra: repartitionByCassandraReplica or converting dataset to JavaRDD and back do not maintain number of partitions?

所以，我有一个 16 节点集群，其中每个节点都安装了 Spark 和 Cassandra，复制因子为 3，spark.sql.shuffle.partitions 为 96。我正在使用 Spark-Cassandra Connector 3.0.0，我正在尝试加入分区键上具有 cassandra ...

使用 Spark 从大型 Cassandra 表读取错误，获取“远程 RPC 客户端已解除关联” - Error reading from large Cassandra table with Spark, getting "Remote RPC client disassociated"

我设置了独立的 spark 集群（使用 cassandra）并且我做到了，但是当我读取数据时出现错误。我的集群有 3 个节点，每个节点有 64 GB 内存和 20 个内核。我正在分享一些 Spark-env.sh 配置，例如 spark_executor_cores: 5、spark_execu ...

无法从 PySpark 应用程序中的 Cassandra 表加载数据 - Unable to load data from Cassandra table in PySpark app

无法从 cassandra 加载数据；我知道问题出在番石榴 jar 上；尝试了不同版本的番石榴；无法识别 jar 的预期版本。（也替换为datastax共享jar） Version - Scala 2.11.12, Spark 2.3.2.3.1.4.41-3 jars using sp ...

从 Kafka 主题将数据写入 Cassandra 表失败 - Writing data to Cassandra table from Kafka topic failing

我编写了简单的工作，它使用来自 Kafka 主题的数据并将其写入 cassandra 表。我可以看到数据正在打印到控制台，但是当将其写入 Cassandra 作业失败时 - 我正在使用 Kafka 3.2.1、Cassandra 3.11.13、pyspark 3.3.0。我的 spark-su ...

使用 cassandra 直接连接的 Spark 流式传输不起作用 - Spark streaming with cassandra direct join don't work

嘿，伙计们。我正在尝试开发火花流应用程序，但有一些问题：一些细节，我们有 Kafka 主题。 spark 3.2.1 和 Cassandra 4.0.4 与 datastax spark-cassandra-connector版本 com.datastax.spark:spark-cassand ...