cost 476 ms
在 Spark 中組合關聯項

[英]Combine associated items in Spark

在 Spark 中,我有一個很大的列表(數百萬),其中包含彼此關聯的項目。 例子: 1: ("A", "C", "D") # 這個數組中的每一項都與數組中的任何其他元素相關聯,因此A和C相關聯,A和D相關聯,C和D 關聯。 2: ("F", "H", "I", "P") 3: ("H", "I", ...

從存儲的角度來看,Scala 如何在內部表示不可變映射?

[英]How does Scala represent immutable maps internally from storage standpoint?

我在 scala 在 Spark-graphx 上有一個應用程序。 VD 包含一個 Map[Long, Map[Long, Double]] ,它需要隨着每次迭代而增長。 兩者都是從 List.toMap 創建的,因此 AFAIK 內部和外部都應該是不可變的。 我在非常大的圖形數據集上遇到的是理 ...

來自 RDD 的 updateStateByKey

[英]updateStateByKey from RDD

我對 Spark-graphx 有點陌生,所以如果這是一個愚蠢的問題,請原諒。 如果可能的話,我也更願意在 Java 而不是 Scala 中執行此操作。 我需要對 JavaDStream 的 RDD 運行 graphx 計算,但我需要將結果回滾到我的 state object。 我正在 forea ...

使用字符串作為 VertexId graphX

[英]Using String for VertexId graphX

我是 Spark 和 GraphX 的新手。 我正在嘗試使用 graphX 創建一個圖形。 但是數據中的ID如下所示: 據我了解, VertexId在 GraphX 中必須是Long類型,但這種類型的 String 不能轉換為 Long。 我需要此 ID 用於以后的步驟,因此我必須將它放在圖形節點 ...

如何使用 Spark Graphx 打印出最短路徑

[英]How can I print out the shortest path by using Spark Graphx

下面的代碼運行良好,它打印出兩個頂點之間的最短路徑長度。 但是如何打印出兩個頂點之間的真實路徑或細節邊緣(不僅是長度)? 運行代碼時,從VertexId=5等頂點輸出最短路徑長度,如下: 例如,結果(4,2.0)表示頂點5和頂點4之間的最短路徑長度為2。但我希望它可以打印出詳細路徑,例如:5 ...

Apache GraphX 分區策略正在生成錯誤

[英]Apache GraphX Partiton Strategy is generating error

我正在嘗試使用此鏈接中免費提供的 SanFranciso 的 road.network 數據集: cs.utah.edu/~lifeifei/SpatialDataset.htm 我只使用邊緣數據集,我想在 3 台機器的集群上對 road.network map 進行分區(目前)。 但是,當我嘗試 ...

如何從包含頂點和邊的文本文件創建圖形?

[英]How can I create a graph from Text File containing the vertex and edges?

我創建了一個包含兩個輸入文件的 RDD,即 Edges 和 Node 文件。 當我使用 Graph.fromEdge() 方法創建圖形時,出現錯誤。 有人可以幫我嗎? inputEdgesTextFile 和 inputNodesTextFile 正在獲取輸入文本數據集。 在代碼的最后一行,我收 ...

如何使用 GraphX 的 Java API 獲取圖的連接組件列表

[英]How to get a list of the connected components of a graph using GraphX's Java APIs

我對 spark 和 GraphX 還很陌生,我正在嘗試了解如何使用 GraphX 的 Java API 執行以下操作。 我正在尋找具有以下簽名的方法: 其中,給定一個只有正度節點但連接組件數量未知的圖,它應該返回一個圖列表(順序無關緊要),其中每個圖都是連接的。 我知道GraphOps.conne ...

Graph 是否適用於 Spark 3.0+ 的 pyspark

[英]Is Graph available on pyspark for Spark 3.0+

我想知道 GraphX API 是否適用於 Spark 3.0+ 的 PySpark? 我在官方文檔中沒有找到任何此類。 所有示例均使用 Scala 開發。 我在哪里可以獲得更多關於它的更新。 謝謝,達山 ...

如何在 Google Cloud Platform 上提交 Spark Graphx 作業示例?

[英]How can I submit a Spark Graphx job example on Google Cloud Platform?

我在 Google Cloud Platform 上創建了一個集群,該集群有五個基於 linux 的虛擬機 (VM):一個主服務器和 4 個工作器。 我在主虛擬機上運行./start-master.sh ,在工作虛擬機上運行./start-worker.sh [external-master-IP ...

如何使用 Pyspark 中的 Graphframes 和 Spark Dataframe 中的原始數據獲取連接組件?

[英]How to Get Connected Component with Graphframes in Pyspark and Raw Data in Spark Dataframe?

我有一個如下所示的火花數據框: 我正在嘗試使用graphframes來識別使用電話和地址從上面的火花數據幀中連接的id組件。 所以這個數據框可以被視為圖的頂點數據框。 我想知道創建圖形的邊數據框以饋送到圖形框中的connectedComponents() graphframes的最佳方法是什么? ...

在graphx中使用自定義頂點類型獲取matchError

[英]Getting matchError with custom vertex type in graphx

我正在嘗試使用自定義頂點類型創建一個簡單的圖形。 創建成功,但頂點操作因 matchError 而失敗。 下面包含復制錯誤的步驟。 復制步驟(在 emr、spark-shell 上): 錯誤: 請立即指導我創建自定義類型或共享文檔。 ...

Spark 中是否有聚類算法,其中生成的聚類大小大致相同?

[英]is there a clustering algorithm in Spark where the resulting clusters are approximately the same size?

我正在運行 Spark GraphX pregel 算法,其中頂點是緯度/經度的交點坐標,邊緣是路段 - 道路網絡。 為了論證的緣故,讓我們假設在運行算法時跨頂點的統一消息負載。 我想通過提供更好的分區來提高性能。 我的第一個努力是創建一個PartitionStrategy ,它基於對源坐標的聚類 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM