標簽[spark-graphx] - 堆棧內存溢出

[英]Graphx Scala Vertices alwayses return me 0

我正在嘗試實現這個 Graphx 示例：它在$numVertices上總是返回 0 似乎沒有什么不對勁 PS：在我的示例中，我希望結果為 6 ...

[英]Combine associated items in Spark

在 Spark 中，我有一個很大的列表（數百萬），其中包含彼此關聯的項目。例子： 1: ("A", "C", "D") # 這個數組中的每一項都與數組中的任何其他元素相關聯，因此A和C相關聯，A和D相關聯，C和D 關聯。 2: ("F", "H", "I", "P") 3: ("H", "I", ...

如何從 Spark Dataframe 構建圖形（使用 Graphx）？

[英]How can I build graph (using Graphx) from Spark Dataframe?

我已經創建了一個 Spark DataFrame，以便通過 Graphx 構建圖形，Graphx 是 Spark 的 API 並接受 Spark Dataframe 格式。所以，現在我有這樣的數據，我想問你，如何從 Spark Dataframe 創建一個具有 [ (Node: hotel_ ...

如何將 org.apache.spark.sql.Column 轉換為 Long 或 String 等數據類型

[英]How to convert org.apache.spark.sql.Column to data types like Long or String

我是 Scala 和 Spark 的新手。我正在嘗試從Spark SQL加載數據以構建graphX頂點，但是我遇到了一個我不知道如何解決的錯誤。這是代碼：這是錯誤： ...

從存儲的角度來看，Scala 如何在內部表示不可變映射？

[英]How does Scala represent immutable maps internally from storage standpoint?

我在 scala 在 Spark-graphx 上有一個應用程序。 VD 包含一個 Map[Long, Map[Long, Double]] ，它需要隨着每次迭代而增長。兩者都是從 List.toMap 創建的，因此 AFAIK 內部和外部都應該是不可變的。我在非常大的圖形數據集上遇到的是理 ...

來自 RDD 的 updateStateByKey

[英]updateStateByKey from RDD

我對 Spark-graphx 有點陌生，所以如果這是一個愚蠢的問題，請原諒。如果可能的話，我也更願意在 Java 而不是 Scala 中執行此操作。我需要對 JavaDStream 的 RDD 運行 graphx 計算，但我需要將結果回滾到我的 state object。我正在 forea ...

使用字符串作為 VertexId graphX

[英]Using String for VertexId graphX

我是 Spark 和 GraphX 的新手。我正在嘗試使用 graphX 創建一個圖形。但是數據中的ID如下所示：據我了解， VertexId在 GraphX 中必須是Long類型，但這種類型的 String 不能轉換為 Long。我需要此 ID 用於以后的步驟，因此我必須將它放在圖形節點 ...

如何使用 Spark Graphx 打印出最短路徑

[英]How can I print out the shortest path by using Spark Graphx

下面的代碼運行良好，它打印出兩個頂點之間的最短路徑長度。但是如何打印出兩個頂點之間的真實路徑或細節邊緣（不僅是長度）？運行代碼時，從VertexId=5等頂點輸出最短路徑長度，如下：例如，結果(4,2.0)表示頂點5和頂點4之間的最短路徑長度為2。但我希望它可以打印出詳細路徑，例如：5 ...

將相關值歸為一組

[英]group the related values in one group

嘗試根據相關記錄對列值進行分組試圖獲得如下輸出 - 以上是我試圖放在一起感謝幫助！！ ...

Apache GraphX 分區策略正在生成錯誤

[英]Apache GraphX Partiton Strategy is generating error

我正在嘗試使用此鏈接中免費提供的 SanFranciso 的 road.network 數據集： cs.utah.edu/~lifeifei/SpatialDataset.htm 我只使用邊緣數據集，我想在 3 台機器的集群上對 road.network map 進行分區（目前）。但是，當我嘗試 ...

如何從包含頂點和邊的文本文件創建圖形？

[英]How can I create a graph from Text File containing the vertex and edges?

我創建了一個包含兩個輸入文件的 RDD，即 Edges 和 Node 文件。當我使用 Graph.fromEdge() 方法創建圖形時，出現錯誤。有人可以幫我嗎？ inputEdgesTextFile 和 inputNodesTextFile 正在獲取輸入文本數據集。在代碼的最后一行，我收 ...

如何使用 GraphX 的 Java API 獲取圖的連接組件列表

[英]How to get a list of the connected components of a graph using GraphX's Java APIs

我對 spark 和 GraphX 還很陌生，我正在嘗試了解如何使用 GraphX 的 Java API 執行以下操作。我正在尋找具有以下簽名的方法：其中，給定一個只有正度節點但連接組件數量未知的圖，它應該返回一個圖列表（順序無關緊要），其中每個圖都是連接的。我知道GraphOps.conne ...

Graph 是否適用於 Spark 3.0+ 的 pyspark

[英]Is Graph available on pyspark for Spark 3.0+

我想知道 GraphX API 是否適用於 Spark 3.0+ 的 PySpark？我在官方文檔中沒有找到任何此類。所有示例均使用 Scala 開發。我在哪里可以獲得更多關於它的更新。謝謝，達山 ...

如何在 Google Cloud Platform 上提交 Spark Graphx 作業示例？

[英]How can I submit a Spark Graphx job example on Google Cloud Platform?

我在 Google Cloud Platform 上創建了一個集群，該集群有五個基於 linux 的虛擬機 (VM)：一個主服務器和 4 個工作器。我在主虛擬機上運行./start-master.sh ，在工作虛擬機上運行./start-worker.sh [external-master-IP ...

轉換 JavaRDD <tuple2<object, long[]> > 進入 Spark 數據集<row>在 Java </row></tuple2<object,>

[英]Convert a JavaRDD<Tuple2<Object, long[]>> into a Spark Dataset<Row> in Java

在 Java （不是 Scala.）中，Spark 3.0.1 有一個JavaRDD實例 object neighborIdsRDD ，其類型為JavaRDD<Tuple2<Object, long[]>> 我與生成 JavaRDD 相關的部分代碼如下：我不得不使用toJ ...

如何使用 Pyspark 中的 Graphframes 和 Spark Dataframe 中的原始數據獲取連接組件？

[英]How to Get Connected Component with Graphframes in Pyspark and Raw Data in Spark Dataframe?

我有一個如下所示的火花數據框：我正在嘗試使用graphframes來識別使用電話和地址從上面的火花數據幀中連接的id組件。所以這個數據框可以被視為圖的頂點數據框。我想知道創建圖形的邊數據框以饋送到圖形框中的connectedComponents() graphframes的最佳方法是什么？ ...

在graphx中使用自定義頂點類型獲取matchError

[英]Getting matchError with custom vertex type in graphx

我正在嘗試使用自定義頂點類型創建一個簡單的圖形。創建成功，但頂點操作因 matchError 而失敗。下面包含復制錯誤的步驟。復制步驟（在 emr、spark-shell 上）：錯誤：請立即指導我創建自定義類型或共享文檔。 ...

如何在 scala 中加載加權圖？

[英]How can I load weighted graphs in scala?

似乎graphx中沒有內置方法可以正確加載加權圖。我有一個文件，其中的列代表圖形的邊緣：如何正確將其加載到graphx.Graph ？ ...

如何在 Zeppelin 中將 dataframe 轉換為 rdd 以使用 graphX

[英]How to convert dataframe to rdd in Zeppelin to use graphX

我想在 dataframe 中使用 zeppelin 中的 graphX 首先，我的 dataframe 如下。所以我想將這個 dataframe 轉換為 RDD，如下所示。 RDD[(id, (name, age))] 但我不知道如何轉換它。 ...

Spark 中是否有聚類算法，其中生成的聚類大小大致相同？

[英]is there a clustering algorithm in Spark where the resulting clusters are approximately the same size?

我正在運行 Spark GraphX pregel 算法，其中頂點是緯度/經度的交點坐標，邊緣是路段 - 道路網絡。為了論證的緣故，讓我們假設在運行算法時跨頂點的統一消息負載。我想通過提供更好的分區來提高性能。我的第一個努力是創建一個PartitionStrategy ，它基於對源坐標的聚類 ...