我们有Cassandra桌人, Dataframe 是, 在 Spark 中,我们想将 dataframe 保存到表中,其中 dataframe 对同一个主键有多个记录。 Q 1:Cassandra 连接器如何在内部处理行的排序? Q2:我们正在从kafka读取数据并保存到Cassandra ...
我们有Cassandra桌人, Dataframe 是, 在 Spark 中,我们想将 dataframe 保存到表中,其中 dataframe 对同一个主键有多个记录。 Q 1:Cassandra 连接器如何在内部处理行的排序? Q2:我们正在从kafka读取数据并保存到Cassandra ...
我们在小数据上测试了很多场景。 如果使用cassandra不带集群安装,那么一切正常,但是如果我们在集群中使用cassandra,那么与function一样,它会花费大约15秒。 我们的java代码就是示例代码。纯粹调用dataset.collectAsList()或者dataset.head(1 ...
运行码 源代码 错误代码 我检查了 Spark UI,工人没有问题。 这是我的 Spark 状态 [![在此处输入图片描述][2]][2] 我的计划是 kafka(DBIP)--readStream-->LOCAL(DriverIP)--writeStream-->Spark& ...
运行环境 源码放在local和kafka,local,writeStream是不一样的 IP \ 表列是: df.printSchema 是 抱歉,我尝试单独解决但找不到任何解决方案。 运行代码 源代码: 我收到此错误: com.datastax.spark.connector.datasou ...
是否可以在运行时更改 spark 配置属性? 我正在使用数据块,我的目标是读取用于生产的 claster 中使用的一些 cassandra 表,并在一些操作后将结果写入另一个用于开发的集群中的另一个 cassandra 表中。 现在我通过 spark 配置属性 usign 连接到我的 cassand ...
我正在尝试将 AWS 胶水作业连接到 Amazon 键空间。 无论如何,是否可以使用 pyspark 连接和处理这些表。 PS:由于组织限制,我不能使用 AWS cli。 ...
我正在尝试编写一个 csv 文件,该文件存储在 cassandra 表中的 Azure Blob 存储中。 我在 Databricks 上使用 pyspark。 理论上,我在创建表和编写一些 dataframe 时没有问题,两者都“手动”创建并由 blob 存储获取。 在这两种情况下,数据帧都非常 ...
所以我注意到,当调用 repartitionByCassandraReplica().JoinWIthCassandraTable() 时,SparkUI 的 Stages 选项卡中的输入大小与 DirectJoin 始终打开时得到的输入大小不同。 我知道这两个遵循不同的策略来确定 Spark 分 ...
我在 java 项目中使用 datastax spark Cassandra 连接器 2.12-3.1.0。 这就是我创建表的 RDD 的方式: 我想使用leftJoinWithCassandraTable但不存在于RDDFunctions中的RDDFunctions 。 如何在 java 中使用 ...
我有一个 16 节点集群,其中每个节点都安装了 Spark 和 Cassandra,复制因子为 3,spark.sql.shuffle.partitions 为 96,Spark-Cassandra-Connector 3.1.0。 我正在数据集和 Cassandra 表之间执行 Spark-Jo ...
我正在使用 cassandra 数据库,并且我有一个 python 脚本用于从 cassandra 数据库中读取数据。 脚本做得很好。 我想知道如果我使用 spark,我可以更快地从 Cassandra 读取数据(使用 cql )吗? ...
因此,我有一个 16 节点集群,其中每个节点都安装了 Spark 和 Cassandra,复制因子为 3,spark.sql.shuffle.partitions 为 96。我正在使用 Spark-Cassandra 连接器 3.0.0 进行repartitionByCassandraReplica ...
我正在尝试构建以下 spark 流式 spark 作业,该作业将从 kafka 读取,执行聚合(计数每个最小窗口)并存储在 Cassandra 中。 我在更新模式上遇到错误。 我的火花源是 cassandra 中表的架构如下 适用于控制台上的更新模式打印,但在更新 cassandra 时失败并出现 ...
我正在尝试连接两个 Cassandra 表: t1.join(t2, Seq("some column"), "left")我收到以下错误消息: 我正在使用 cassandra v3.11.13 和 Spark 3.3.0。 代码依赖: 非常感谢您的帮助 ...
我的问题其实很简单。 我们可以在不使用 Spark-Cassandra-Connector 的情况下使用 Spark 从/向 Cassandra 数据库读取/写入数据吗? 还有其他我们可以使用的东西吗? 如果是这样,它们之间是否有任何性能比较? ...
所以,我有一个 16 节点集群,其中每个节点都安装了 Spark 和 Cassandra,复制因子为 3,spark.sql.shuffle.partitions 为 96。我正在使用 Spark-Cassandra Connector 3.0.0,我正在尝试加入分区键上具有 cassandra ...
我设置了独立的 spark 集群(使用 cassandra)并且我做到了,但是当我读取数据时出现错误。我的集群有 3 个节点,每个节点有 64 GB 内存和 20 个内核。 我正在分享一些 Spark-env.sh 配置,例如 spark_executor_cores: 5、spark_execu ...
无法从 cassandra 加载数据; 我知道问题出在番石榴 jar 上; 尝试了不同版本的番石榴; 无法识别 jar 的预期版本。 (也替换为datastax共享jar) Version - Scala 2.11.12, Spark 2.3.2.3.1.4.41-3 jars using sp ...
我编写了简单的工作,它使用来自 Kafka 主题的数据并将其写入 cassandra 表。 我可以看到数据正在打印到控制台,但是当将其写入 Cassandra 作业失败时 - 我正在使用 Kafka 3.2.1、Cassandra 3.11.13、pyspark 3.3.0。 我的 spark-su ...
嘿,伙计们。 我正在尝试开发火花流应用程序,但有一些问题:一些细节,我们有 Kafka 主题。 spark 3.2.1 和 Cassandra 4.0.4 与 datastax spark-cassandra-connector版本 com.datastax.spark:spark-cassand ...