標簽[distributed] - 堆棧內存溢出

是否可以在不重新創建集群的情況下使用 terraform 在 GKE 上調整節點池磁盤大小？

[英]Is it possible to resize a node pool disk size on GKE with terraform whitout recreating the cluster?

是否可以使用 Terraform 在 GKE 上調整節點池磁盤大小而不重新創建（首先刪除，然后使用新設置再次創建）集群？我想使用工作負載自動遷移節點池，而無需重新創建集群且無需任何停機時間。這是我在升級集群時得到的 output，它正在殺死並重新創建整個節點池，我不希望這樣。 ...

如何根據新的 Redis 隊列及其負載在 Kube.netes 上以編程方式在運行時啟動/關閉工作線程？

[英]How to spin up/down workers programmatically at run-time on Kubernetes based on new Redis queues and their load?

假設我想實現這個部署在 Kube.netes 集群上的架構： Gateway Simple RESTful HTTP 微服務接受抓取任務（要抓取的 URL 以及回發 URL）請求隊列- Redis（或其他消息代理）隊列為每個唯一域動態創建（當遇到新域時，網關應以編程方式創建新隊列。如果域隊列 ...

如何在每個任務只能由一台服務器完成的服務器之間分配任務？

[英]How to distribute tasks between servers where each task must be done by only one server?

目標：有 X 台后端服務器。有 Y 個任務。每個任務只能由一台服務器完成。由兩個不同的服務器運行相同的任務不應該發生。有些任務包括無限期的連續工作，例如輪詢數據。只要服務器保持活動狀態，同一台服務器就可以繼續執行此類任務。問題：如果執行任務的服務器死機，如何重新分配任務？如果服務器死 ...

當工作節點崩潰時，如何停止對 postgres 協調器的活動查詢

[英]How can I stop an active query on a postgres coordinator when the worker node has crashed

我有一個無法使用標准 pg_cancel/pg_terminate 命令停止的 postgres select 查詢。兩個命令都返回 true，但什么都不做。該查詢在數百個表上具有訪問共享鎖，使我們的 ETL 無法創建新分區。查詢被列為活動狀態，但我們認為它只是在等待來自永遠不會發送的工作節點 ...

Lamport 時鍾表示中的條目代表什么？

[英]What do the entries in Lamport clocks representations represent?

我試圖理解如何應用 Lamport 算法的說明性示例。在我正在學習的課程中，我們看到了三個 [distant] 進程中時鍾的兩種表示形式，一個應用了 lamport 算法，另一個沒有應用。沒有 Lamport 算法：應用 lamport 算法：我的問題是關於應用於與進程 P1 有關的表 ...

版本從 20.07.2 升級到 20.07.3 后無法使用級聯運行查詢

[英]Unable to Run Query with Cascade after Version upgrade from 20.07.2 to 20.07.3

我們是 dgraph 數據庫的新手。升級服務器后，我們無法使用級聯選項運行以下查詢 "errors": [ { "message": "line 4 column 15: Malformed Query. Missing {. Got (", "extensions": { "code": "E ...

Julia中的並行for循環

[英]Parallel for loop in Julia

我知道有很多關於在 Julia 中使用@threads、@distributed 和其他方法運行並行 for 循環的問題。我曾嘗試在那里實施解決方案，但沒有成功。我想做的事情的結構如下。數據集是獨立的，這個循環的任何部分都不依賴於任何其他部分。看起來這應該是可並行化的。我試過，例如， “ ...

multipaxos 和基本的 paxos 協議之間的主要區別是什么

[英]what is the key difference between multipaxos and basic paxos protocol

multipaxos 與基本 paxos 有何不同？ multipaxos 中的排序是如何進行的？有人可以用圖表解釋 multi-paxos 嘗試瀏覽視頻和研究論文，但無法理解 multi-paxos 的確切區別和概念 ...

來自 all_gather 的分布式火炬數據沖突（將 all_gather 結果寫入文件“修復”了問題）

[英]distributed torch data collision from all_gather (writing all_gather results to file "fixes" the problem)

問題：分布式進程計算錯誤並將它們與float索引一起返回當從不同的行列收集到錯誤時，這些索引就會發生沖突因此，如果數據集有 100 個樣本並且 GPU 的數量為 4，則生成的索引集的長度為 25 而不是預期的 100 當我將每個等級的數據（預收集）寫入文件時，我可以驗證索引是否 100% 不相交 ...

為什么Paxos要保證共識達成且不變？

[英]Why does Paxos ensure that consensus is reached and does not change?

我一直在閱讀有關單法令 Paxos 的文章（主要是看 Paxos Made Simple），但我對是否保證接受者之間的共識在達成后不會改變感到困惑。根據James Aspnes 的筆記，所以現在我們假設某個值v最終被數字為n的大多數T接受。然后我們可以通過對提案編號的歸納來證明所有編號較高的 ...

如何在 Pytorch 中的 windows 上將后端設置為“gloo”

[英]How to set backend to ‘gloo’ on windows in Pytorch

我試圖在我的 windows 機器上使用兩個 gpus，但我一直在 raise RuntimeError（“分布式 package 沒有 NCCL”“內置”） RuntimeError：分布式 package 沒有內置 NCCL 我還是 pytorch 的新手，並且真的找不到將后端設置為“gloo ...

Prefect 2 Dask：提交不消耗資源

[英]Prefect 2 Dask: submit Not Consuming Resources

目標：我正在嘗試獲取 Prefect 2 為 Dask 創建的任務以消耗 GPU 資源以防止過度工作。已檢查：我為我的 dask-workers 設置了每個 GPU=1 的資源。我檢查了儀表板並確認它們都將 GPU 設為 1。問題：當通過 Prefect 2 運行我的任務時，我沒有看到資源被標 ...

分布式 Erlang - “防止重疊分區”算法如何工作？

[英]Distributed Erlang - How does the 'prevention of overlapping partititions' algorithm work?

引用 Erlang 文檔從 OTP 25 開始，默認情況下，全局將通過主動斷開與報告已失去與其他節點連接的節點的連接來防止由於網絡問題導致的重疊分區。這將導致形成完全連接的分區，而不是將網絡留在具有重疊分區的 state 中。現在，我進行了一組實驗，其中 3 個節點 A、B、C 形成了一個完全 ...

多線程如何在分布式系統中工作？

[英]How Multi Threading works in Distributed systems?

當 java 微服務的多個實例正在運行時，多線程如何工作？例如：假設在實例 1 中，某個線程修改了 state，如何在不同實例之間進行通信？還是不可能？ ...

嘗試並行化矩陣旋轉

[英]Trying to parallelize a matrix rotation

我正在嘗試並行化 Julia 中的矩陣旋轉。我正在使用分布式 package，但仍然出現錯誤。我的原始（串行）代碼如下：在嘗試應用Distributed package 后，我的代碼現在是這樣的：這仍然給我以下錯誤。我有點困惑，因為我以為我在定義Rotations package 到處都包 ...

Rundeck 是否能夠執行分布式作業？

[英]Is Rundeck able to execute distributed Jobs?

對於分段 LAN 環境，我必須將作業執行委托給遠程服務器系統。 Rundeck 能否將 Job 的執行委托給其他服務器？如果是，是否可以通過鏈接服務器路由到達目標執行系統（首先連接服務器 A，然后連接服務器 B，最后在服務器 C 上執行作業）？ ...

即使您不是所有者，也可以在公共區塊鏈上讀取信息嗎？

[英]Can information be read on public blockchain even if you arent the owner?

讓我們想象一下，我在像以太坊這樣的公共區塊鏈上以純文本形式編寫信息。這些信息可能是我部署的交易甚至是智能合約。其他用戶可以在區塊鏈中讀取此信息嗎？當我們談論公共網絡時，我想每個人都可以使用此信息，對嗎？如果是這樣，怎么辦？例如，另一個用戶可以使用區塊號或交易 ID go 進行 ether ...

分布式存儲過程 Neo4j

[英]Stored procedure in a distributed Neo4j

我對 Neo4j 有一些經驗，但現在我們正在討論使用自定義存儲過程和分片 Neo4j 數據庫的想法（所以使用 Neo4j 到目前為止，兩者都使用過的織物）我在互聯網上搜索了一段時間但找不到答案的是將自定義存儲過程與分片數據庫混合的實際可能性。我猜該過程必須存儲在 Fabric 實例中才能使用整 ...

導入 dask_cuda 導致 parse_memory_limit 錯誤

[英]importing dask_cuda results in parse_memory_limit error

我正在嘗試導入 dask_cuda 作為示例：但我收到以下錯誤：我用谷歌搜索了這個錯誤，但找不到與它相關的任何內容。我認為這是一個 DASK 問題，所以我只用from dask.distributed import Client重新嘗試，它工作。所以，我猜這個錯誤與dask_cuda有關，但 ...

在 Keras 中使用分布式學習在多個 GPU 上分配大張量

[英]Allocating Large Tensor on multiple GPUs using Distributed Learning in Keras

我正在使用 Tensorflow 分布式學習，使用以下命令 - 正在使用的系統有 4 個 32 GB GPU 設備。以下是nvidia-smi的output—— 但是在運行腳本創建 model 后，我收到以下錯誤 - float 類型的形狀為 [131072,65536] 的張量將分配 1310 ...