标签[distributed] - 堆栈内存溢出

是否可以在不重新创建集群的情况下使用 terraform 在 GKE 上调整节点池磁盘大小？ - Is it possible to resize a node pool disk size on GKE with terraform whitout recreating the cluster?

是否可以使用 Terraform 在 GKE 上调整节点池磁盘大小而不重新创建（首先删除，然后使用新设置再次创建）集群？我想使用工作负载自动迁移节点池，而无需重新创建集群且无需任何停机时间。这是我在升级集群时得到的 output，它正在杀死并重新创建整个节点池，我不希望这样。 ...

如何根据新的 Redis 队列及其负载在 Kube.netes 上以编程方式在运行时启动/关闭工作线程？ - How to spin up/down workers programmatically at run-time on Kubernetes based on new Redis queues and their load?

假设我想实现这个部署在 Kube.netes 集群上的架构： Gateway Simple RESTful HTTP 微服务接受抓取任务（要抓取的 URL 以及回发 URL）请求队列- Redis（或其他消息代理）队列为每个唯一域动态创建（当遇到新域时，网关应以编程方式创建新队列。如果域队列 ...

如何在每个任务只能由一台服务器完成的服务器之间分配任务？ - How to distribute tasks between servers where each task must be done by only one server?

目标：有 X 台后端服务器。有 Y 个任务。每个任务只能由一台服务器完成。由两个不同的服务器运行相同的任务不应该发生。有些任务包括无限期的连续工作，例如轮询数据。只要服务器保持活动状态，同一台服务器就可以继续执行此类任务。问题：如果执行任务的服务器死机，如何重新分配任务？如果服务器死 ...

当工作节点崩溃时，如何停止对 postgres 协调器的活动查询 - How can I stop an active query on a postgres coordinator when the worker node has crashed

我有一个无法使用标准 pg_cancel/pg_terminate 命令停止的 postgres select 查询。两个命令都返回 true，但什么都不做。该查询在数百个表上具有访问共享锁，使我们的 ETL 无法创建新分区。查询被列为活动状态，但我们认为它只是在等待来自永远不会发送的工作节点 ...

Lamport 时钟表示中的条目代表什么？ - What do the entries in Lamport clocks representations represent?

我试图理解如何应用 Lamport 算法的说明性示例。在我正在学习的课程中，我们看到了三个 [distant] 进程中时钟的两种表示形式，一个应用了 lamport 算法，另一个没有应用。没有 Lamport 算法：应用 lamport 算法：我的问题是关于应用于与进程 P1 有关的表 ...

版本从 20.07.2 升级到 20.07.3 后无法使用级联运行查询 - Unable to Run Query with Cascade after Version upgrade from 20.07.2 to 20.07.3

我们是 dgraph 数据库的新手。升级服务器后，我们无法使用级联选项运行以下查询 "errors": [ { "message": "line 4 column 15: Malformed Query. Missing {. Got (", "extensions": { "code": "E ...

Julia中的并行for循环 - Parallel for loop in Julia

我知道有很多关于在 Julia 中使用@threads、@distributed 和其他方法运行并行 for 循环的问题。我曾尝试在那里实施解决方案，但没有成功。我想做的事情的结构如下。数据集是独立的，这个循环的任何部分都不依赖于任何其他部分。看起来这应该是可并行化的。我试过，例如， “ ...

multipaxos 和基本的 paxos 协议之间的主要区别是什么 - what is the key difference between multipaxos and basic paxos protocol

multipaxos 与基本 paxos 有何不同？ multipaxos 中的排序是如何进行的？有人可以用图表解释 multi-paxos 尝试浏览视频和研究论文，但无法理解 multi-paxos 的确切区别和概念 ...

来自 all_gather 的分布式火炬数据冲突（将 all_gather 结果写入文件“修复”了问题） - distributed torch data collision from all_gather (writing all_gather results to file "fixes" the problem)

问题：分布式进程计算错误并将它们与float索引一起返回当从不同的行列收集到错误时，这些索引就会发生冲突因此，如果数据集有 100 个样本并且 GPU 的数量为 4，则生成的索引集的长度为 25 而不是预期的 100 当我将每个等级的数据（预收集）写入文件时，我可以验证索引是否 100% 不相交 ...

为什么Paxos要保证共识达成且不变？ - Why does Paxos ensure that consensus is reached and does not change?

我一直在阅读有关单法令 Paxos 的文章（主要是看 Paxos Made Simple），但我对是否保证接受者之间的共识在达成后不会改变感到困惑。根据James Aspnes 的笔记，所以现在我们假设某个值v最终被数字为n的大多数T接受。然后我们可以通过对提案编号的归纳来证明所有编号较高的 ...

如何在 Pytorch 中的 windows 上将后端设置为“gloo” - How to set backend to ‘gloo’ on windows in Pytorch

我试图在我的 windows 机器上使用两个 gpus，但我一直在 raise RuntimeError（“分布式 package 没有 NCCL”“内置”） RuntimeError：分布式 package 没有内置 NCCL 我还是 pytorch 的新手，并且真的找不到将后端设置为“gloo ...

Prefect 2 Dask：提交不消耗资源 - Prefect 2 Dask: submit Not Consuming Resources

目标：我正在尝试获取 Prefect 2 为 Dask 创建的任务以消耗 GPU 资源以防止过度工作。已检查：我为我的 dask-workers 设置了每个 GPU=1 的资源。我检查了仪表板并确认它们都将 GPU 设为 1。问题：当通过 Prefect 2 运行我的任务时，我没有看到资源被标 ...

分布式 Erlang - “防止重叠分区”算法如何工作？ - Distributed Erlang - How does the 'prevention of overlapping partititions' algorithm work?

引用 Erlang 文档从 OTP 25 开始，默认情况下，全局将通过主动断开与报告已失去与其他节点连接的节点的连接来防止由于网络问题导致的重叠分区。这将导致形成完全连接的分区，而不是将网络留在具有重叠分区的 state 中。现在，我进行了一组实验，其中 3 个节点 A、B、C 形成了一个完全 ...

多线程如何在分布式系统中工作？ - How Multi Threading works in Distributed systems?

当 java 微服务的多个实例正在运行时，多线程如何工作？例如：假设在实例 1 中，某个线程修改了 state，如何在不同实例之间进行通信？还是不可能？ ...

尝试并行化矩阵旋转 - Trying to parallelize a matrix rotation

我正在尝试并行化 Julia 中的矩阵旋转。我正在使用分布式 package，但仍然出现错误。我的原始（串行）代码如下：在尝试应用Distributed package 后，我的代码现在是这样的：这仍然给我以下错误。我有点困惑，因为我以为我在定义Rotations package 到处都包 ...

Rundeck 是否能够执行分布式作业？ - Is Rundeck able to execute distributed Jobs?

对于分段 LAN 环境，我必须将作业执行委托给远程服务器系统。 Rundeck 能否将 Job 的执行委托给其他服务器？如果是，是否可以通过链接服务器路由到达目标执行系统（首先连接服务器 A，然后连接服务器 B，最后在服务器 C 上执行作业）？ ...

即使您不是所有者，也可以在公共区块链上读取信息吗？ - Can information be read on public blockchain even if you arent the owner?

让我们想象一下，我在像以太坊这样的公共区块链上以纯文本形式编写信息。这些信息可能是我部署的交易甚至是智能合约。其他用户可以在区块链中读取此信息吗？当我们谈论公共网络时，我想每个人都可以使用此信息，对吗？如果是这样，怎么办？例如，另一个用户可以使用区块号或交易 ID go 进行 ether ...

分布式存储过程 Neo4j - Stored procedure in a distributed Neo4j

我对 Neo4j 有一些经验，但现在我们正在讨论使用自定义存储过程和分片 Neo4j 数据库的想法（所以使用 Neo4j 到目前为止，两者都使用过的织物）我在互联网上搜索了一段时间但找不到答案的是将自定义存储过程与分片数据库混合的实际可能性。我猜该过程必须存储在 Fabric 实例中才能使用整 ...

导入 dask_cuda 导致 parse_memory_limit 错误 - importing dask_cuda results in parse_memory_limit error

我正在尝试导入 dask_cuda 作为示例：但我收到以下错误：我用谷歌搜索了这个错误，但找不到与它相关的任何内容。我认为这是一个 DASK 问题，所以我只用from dask.distributed import Client重新尝试，它工作。所以，我猜这个错误与dask_cuda有关，但 ...

在 Keras 中使用分布式学习在多个 GPU 上分配大张量 - Allocating Large Tensor on multiple GPUs using Distributed Learning in Keras

我正在使用 Tensorflow 分布式学习，使用以下命令 - 正在使用的系统有 4 个 32 GB GPU 设备。以下是nvidia-smi的output—— 但是在运行脚本创建 model 后，我收到以下错误 - float 类型的形状为 [131072,65536] 的张量将分配 1310 ...