簡體 English 中英

Spark 是否適合在許多節點中自動運行統計分析腳本以加快速度？

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

原文 2023-02-01 18:05:34 3 1 apache-spark/ pyspark/ mapreduce/ amazon-emr

我有一個 Python 腳本，它運行統計分析並對輸入數據訓練深度學習模型。 數據量相當小 (~5Mb)，但由於分析腳本的復雜性，速度很慢。 我想知道是否可以使用 Spark 在集群的不同節點上運行我的腳本，以便我可以獲得加速。 基本上，我想將輸入數據分成許多子集並並行運行分析腳本。 Spark 是實現此目的的好工具嗎？ 先感謝您！

1 個解決方案

只要將深度學習 model 集成到 pyspark 管道中並使用分區，就可以期待運行時的加速。 沒有代碼，很難提出具體的建議，但這篇文章是一個很好的起點。

啟動腳本不在實例中運行

[英]Startup script NOT running in instance

Spark 工作節點無法訪問主節點上的文件

[英]Spark worker nodes unable to access file on master node

在谷歌雲平台運行 liquibase 腳本

[英]Running liquibase script in google cloud platform

在啟動時在 windows azure 虛擬機中運行腳本

[英]running script at boot time in windows azure vm

編寫 Java 代碼來檢查有多少個 AWS function 實例正在運行

[英]Writing Java code to check how many instances of an AWS function are running

AWS EKS“0/3 個節點可用：3 個 Pod 太多”錯誤

[英]AWS EKS "0/3 nodes are available: 3 Too many pods" Error

Azure AKS - 如何為在不同可用性區域的節點上運行的 pod 在公共磁盤上安裝卷？

[英]Azure AKS - how to mount a volume on a common disk for pods running on nodes from different availability zones?

在 gce 中運行雲初始化腳本

[英]running cloud init script in gce

谷歌雲啟動腳本未運行

[英]Google Cloud Startup Script Not Running

在 dataproc 集群上運行時無法從 spark jar 中創建 bigquery 連接

[英]Not able to create bigquery connection from within spark jar when running on dataproc cluster

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 啟動腳本不在實例中運行 Spark 工作節點無法訪問主節點上的文件在谷歌雲平台運行 liquibase 腳本在啟動時在 windows azure 虛擬機中運行腳本編寫 Java 代碼來檢查有多少個 AWS function 實例正在運行 AWS EKS“0/3 個節點可用：3 個 Pod 太多”錯誤 Azure AKS - 如何為在不同可用性區域的節點上運行的 pod 在公共磁盤上安裝卷？在 gce 中運行雲初始化腳本谷歌雲啟動腳本未運行在 dataproc 集群上運行時無法從 spark jar 中創建 bigquery 連接

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM