我最近开始为我的新项目使用 Cassandra 并进行一些负载测试。 我有这样一个场景,我正在使用 CSV 进行 dsbulk 加载, 我的 CSV 文件条目如下所示, 列类型, 问题是,对于列freq ,我尝试了不同的方法来设置 csv 中的值,如下所示,但无法使用dsbulk插入行假设我将 f ...
我最近开始为我的新项目使用 Cassandra 并进行一些负载测试。 我有这样一个场景,我正在使用 CSV 进行 dsbulk 加载, 我的 CSV 文件条目如下所示, 列类型, 问题是,对于列freq ,我尝试了不同的方法来设置 csv 中的值,如下所示,但无法使用dsbulk插入行假设我将 f ...
我正在使用 dsbulk 将数据集加载到 datastax astra 错误信息: 我的表结构: 我的映射错误 我尝试更改数据类型仍然无效。 感谢是否有人可以帮助我 ...
我正在尝试使用 DSBulk 工具将 csv 加载到 DataStax Astra 中的数据库中。 这是我运行的命令减去敏感细节: 这是我返回的错误: 这是完整的日志: 该错误表明缺少 config.json,但事实并非如此。 所以我卡住了。 除非它在我指定的包之外的其他地方寻找,但包肯定有 co ...
尝试使用 dsbulk 从 AWS Keyspace 卸载或计算数据时出错。 错误: 命令行: 配置: dsbulk 加载 - 加载运算符工作正常...... ...
重新加载先前加载的文件时,Datastax dsbulk 是否会重复或更新数据? ...
我尝试使用 dsbulk 将大量数据加载到带有集合的表中: 我收到以下错误: 如果我使用 加载按预期执行。 有人知道如何参数化我的设置值吗? 或者,我可以创建单独的更新语句,然后通过 cqlsh 执行这些语句。 不幸的是,处理时间真的很慢。 我有超过 10 亿条记录要插入。 ...
我已经在 EC2 实例中运行以下命令以从 cassandra 卸载数据并将其存储在 EC2 的某个位置,但我观察到对于每个 dsbulk 卸载命令,它会生成 2 个 json 文件,无论文件大小有多大。 如何控制生成的文件数量? 例如,假设我想要一个特定的 dsbulk 卸载来生成 5 个部分文件 ...
我在 cassandra 中有一个巨大的 orderhistory 表,其中包含 2013 年的数据,但我只想卸载最后 12 个月的 orderhistory 数据,我使用下面的命令来卸载从 2013 年开始的所有数据并存储在路径data/json/customer_data/orderhistor ...
我正在使用 DSBulk 将数据从安装在 Kubernetes 下的 DSE 集群卸载到 CSV,我的集群由 9 个 Kubernetes Pod 组成,每个 120 GB 内存。 我在卸载数据时监控了资源,并观察到在 CSV 中获取的数据越多,ram 被利用的越多,并且由于内存不足,pod 正在 ...
我使用这些设置运行它: 应用程序抱怨连接池耗尽 --> 应用程序在连接到 cassandra 时超时。 cassandra 版本 2.13 cassandra 特征:3 个节点 - 每个节点上有 64 个 cpu/124Gb 内存。 解释设置 dsbulk? ...
我在一个文件夹中卸载了 100 多个 CSV 文件。 当我尝试使用 DSBULK 加载并将这些文件加载到 cassandra 并指定所有这些文件的文件夹位置时,出现以下错误 我想看看其他人是否遇到过它以及它是如何解决的。 ...
我正在使用如下配置文件使用 DSBULK 在 Cassandra 中加载数据 我用上面的配置写了一个python程序来执行DSBULK。 我注意到我需要将 dsbulk.conf 保存在 DSBULK conf 文件夹中才能使程序正常工作。 如何为 driver.conf 文件指定不同的位置? ...
我使用 dsbulk 进行基于文本的 cassandra 集群备份和恢复。 我创建了一个 python 脚本,它使用 dsbulk 加载/卸载来备份/恢复 cassandra 集群中的所有表,但由于为每个表创建了新会话(大约 7 秒),即使数据较少,也需要很长时间,在我的情况下,我有 70表,因此由 ...
在inte.net上搜索了很多,看到了很多备份和恢复Cassandra集群的方法,比如nodetool snapshot和Medusa 。 但我的问题是我可以使用dsbulk来备份 Cassandra 集群吗? 它有什么局限性? 为什么没有人建议呢? ...
我手动安装了 Apache Cassandra 和 DSBulk 加载程序,一切正常,但是当我尝试使用 DSBulk 加载数据时,似乎是 db 和 DSBulk 之间的连接问题。 有人可以告诉我发生了什么,我该如何解决? 奇怪,第一次看到这个错误。 直到今天,这从未发生在我身上。 这里的错误: 尝试 ...
试图从一个巨大的表中卸载数据,下面是使用的命令和 output。 $ /home/cassandra/dsbulk-1.8.0/bin/dsbulk unload --driver.auth.provider PlainTextAuthProvider --driver.auth.username ...
在我的 windows 机器上,我有 CQLSH 工作并使用 .cert 文件现在我开始使用 DSBulk,但无法通过命令行知道在哪里可以找到我的证书。 我这里有一个证书文件:C:\myfolder\mycert.cer 这是我的命令行示例: dsbulk count --ssl -u "myuse ...
当我想将数据上传到我的“测试集群”到 Apache Cassandra 中时,我打开终端,然后: 但... 这是什么意思? 为什么我无法加载? 谢谢! ...
我正在使用dsbulk 1.6.0 从cassandra 3.11.3 卸载数据。 每次卸载都会导致截然不同的行数。 以下是 3 次卸载调用的结果,在同一个集群上,连接到同一个 cassandra 主机。 被卸载的表只会被附加,数据永远不会被删除,所以卸载行的减少不应该发生。 集群中有 3 个 ca ...
我想运行 dsbulk unload 命令,但我的 cassandra 集群在我想要导出的表中有 ~1tb 的数据。 有没有办法运行 dsbulk unload 命令并将数据流式传输到 s3 而不是写入磁盘? 我在我的开发环境中运行以下命令,但显然这只是写入我机器上的磁盘 bin/dsbulk u ...