cost 208 ms
如何用最新行更新 Cassandra 表,其中 Spark Dataframe 有多行具有相同的主键? - How to update Cassandra table with latest row, where Spark Dataframe is having multiple rows with same primary key?

我们有Cassandra桌人, Dataframe 是, 在 Spark 中,我们想将 dataframe 保存到表中,其中 dataframe 对同一个主键有多个记录。 Q 1:Cassandra 连接器如何在内部处理行的排序? Q2:我们正在从kafka读取数据并保存到Cassandra ...

为什么在带有 Cassandra 集群的 java 代码中使用 Spark Cassandra 连接器时速度这么慢? - Why is so slow when use Spark Cassandra Connector in java code with Cassandra cluster?

我们在小数据上测试了很多场景。 如果使用cassandra不带集群安装,那么一切正常,但是如果我们在集群中使用cassandra,那么与function一样,它会花费大约15秒。 我们的java代码就是示例代码。纯粹调用dataset.collectAsList()或者dataset.head(1 ...

Spark Structured Streaming + pyspark app 返回“Initial job has not accepted any resources” - Spark Structured Streaming + pyspark app returns "Initial job has not accepted any resources"

运行码 源代码 错误代码 我检查了 Spark UI,工人没有问题。 这是我的 Spark 状态 [![在此处输入图片描述][2]][2] 我的计划是 kafka(DBIP)--readStream-->LOCAL(DriverIP)--writeStream-->Spark&amp ...

Spark + Kafka 应用程序,获取“CassandraCatalogException:尝试写入 C* 表但缺少主键列:[col1、col2、col3]” - Spark + Kafka app, getting "CassandraCatalogException: Attempting to write to C* Table but missing primary key columns: [col1,col2,col3]"

运行环境 源码放在local和kafka,local,writeStream是不一样的 IP \ 表列是: df.printSchema 是 抱歉,我尝试单独解决但找不到任何解决方案。 运行代码 源代码: 我收到此错误: com.datastax.spark.connector.datasou ...

在 Databricks 中的运行时更改 spark 配置 - Change spark configuration at runtime in Databricks

是否可以在运行时更改 spark 配置属性? 我正在使用数据块,我的目标是读取用于生产的 claster 中使用的一些 cassandra 表,并在一些操作后将结果写入另一个用于开发的集群中的另一个 cassandra 表中。 现在我通过 spark 配置属性 usign 连接到我的 cassand ...

将 DataFrame 写入 Cassandra,得到 CassandraCatalogException "Attempting to write to C* Table but missing..." - Writing DataFrame to Cassandra, getting CassandraCatalogException "Attempting to write to C* Table but missing ..."

我正在尝试编写一个 csv 文件,该文件存储在 cassandra 表中的 Azure Blob 存储中。 我在 Databricks 上使用 pyspark。 理论上,我在创建表和编写一些 dataframe 时没有问题,两者都“手动”创建并由 blob 存储获取。 在这两种情况下,数据帧都非常 ...

如何为 repartitionByCassandraReplica.JoinWIthCassandraTable() 与 DirectJoin=AlwaysOn 计算输入大小? - How is the input size calculated for repartitionByCassandraReplica.JoinWIthCassandraTable() vs DirectJoin=AlwaysOn?

所以我注意到,当调用 repartitionByCassandraReplica().JoinWIthCassandraTable() 时,SparkUI 的 Stages 选项卡中的输入大小与 DirectJoin 始终打开时得到的输入大小不同。 我知道这两个遵循不同的策略来确定 Spark 分 ...

Spark 独立应用程序实现 PCA,然后挂起 10-12 分钟,然后才从 memory 中删除 RDD - Spark standalone application implementes PCA, then hangs for 10-12 minutes and only then removes RDD from memory

我有一个 16 节点集群,其中每个节点都安装了 Spark 和 Cassandra,复制因子为 3,spark.sql.shuffle.partitions 为 96,Spark-Cassandra-Connector 3.1.0。 我正在数据集和 Cassandra 表之间执行 Spark-Jo ...

Kafka 到 Spark 和 Cassandra Spark 结构化流上的接收器在更新模式下不起作用 - Kafka to Spark and Cassandra Sink on a Spark structured streaming doesn't work on update mode

我正在尝试构建以下 spark 流式 spark 作业,该作业将从 kafka 读取,执行聚合(计数每个最小窗口)并存储在 Cassandra 中。 我在更新模式上遇到错误。 我的火花源是 cassandra 中表的架构如下 适用于控制台上的更新模式打印,但在更新 cassandra 时失败并出现 ...

Spark-Cassandra:repartitionByCassandraReplica 或将数据集转换为 JavaRDD 并返回不维护分区数? - Spark-Cassandra: repartitionByCassandraReplica or converting dataset to JavaRDD and back do not maintain number of partitions?

所以,我有一个 16 节点集群,其中每个节点都安装了 Spark 和 Cassandra,复制因子为 3,spark.sql.shuffle.partitions 为 96。我正在使用 Spark-Cassandra Connector 3.0.0,我正在尝试加入分区键上具有 cassandra ...

使用 Spark 从大型 Cassandra 表读取错误,获取“远程 RPC 客户端已解除关联” - Error reading from large Cassandra table with Spark, getting "Remote RPC client disassociated"

我设置了独立的 spark 集群(使用 cassandra)并且我做到了,但是当我读取数据时出现错误。我的集群有 3 个节点,每个节点有 64 GB 内存和 20 个内核。 我正在分享一些 Spark-env.sh 配置,例如 spark_executor_cores: 5、spark_execu ...

从 Kafka 主题将数据写入 Cassandra 表失败 - Writing data to Cassandra table from Kafka topic failing

我编写了简单的工作,它使用来自 Kafka 主题的数据并将其写入 cassandra 表。 我可以看到数据正在打印到控制台,但是当将其写入 Cassandra 作业失败时 - 我正在使用 Kafka 3.2.1、Cassandra 3.11.13、pyspark 3.3.0。 我的 spark-su ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM