簡體 English 中英

Apache Spark為什么不兼容函數？

[英]Why Apache Spark take function not parallel?

原文 2015-02-10 16:21:17 7 2 scala/ parallel-processing/ apache-spark

閱讀http://spark.apache.org/docs/latest/programming-guide.html上的 Apache Spark指南，它指出：

在此輸入圖像描述

為什么取功能不能並行運行？ 並行實現這種功能有什么困難？ 是否與事實有關，為了獲取RDD的前n個元素，需要遍歷整個RDD？

2 個解決方案

實際上，雖然take並不是完全平行的，但它也不是完全順序的。

例如，假設您take(200) ，每個分區有10個元素。 take將首先獲取分區0並看到它有10個元素。 它假定它需要20個這樣的分區來獲得200個元素。 但是最好在並行請求中要求更多。 所以它需要30個分區，它已經有1.所以它接下來並行地獲取分區1到29。 這可能是最后一步。 如果它非常不吉利，並且沒有找到總共200個元素，它將再次進行估算並同時請求另一批。

查看代碼，它有詳細記錄： https ： //github.com/apache/spark/blob/v1.2.0/core/src/main/scala/org/apache/spark/rdd/RDD.scala#L1049

我認為文檔是錯誤的。 只有在需要單個分區時才會進行本地計算。 這是第一次傳遞（獲取分區0）的情況，但通常不是后續傳遞中的情況。

你會如何並行實現它？ 假設您有4個分區，並希望獲得前5個元素。 如果您事先知道每個分區的大小，那將很容易：例如，如果每個分區有3個元素，則驅動程序會詢問所有元素的分區0，並詢問分區1是否有2個元素。 所以問題是不知道每個分區有多少個元素。

現在，您可以先計算分區大小，但這需要限制所支持的RDD轉換集，多次計算元素或其他一些權衡，並且通常需要更多的通信開銷。

為Apache Spark編寫並行代碼

[英]Writing parallel code for apache Spark

為什么並行聚合在火花中沒有更快？

[英]Why is parallel aggregation not faster in spark?

spark將函數並行應用於列

[英]spark apply function to columns in parallel

apache spark agg() 函數

[英]apache spark agg( ) function

Apache Spark中的聚合函數

[英]aggregate function in apache spark

是否在Apache Spark中並行執行同一RDD上的兩個轉換？

[英]Are two transformations on the same RDD executed in parallel in Apache Spark?

如何在Apache Spark中並行運行兩個SparkSql查詢

[英]How to run two SparkSql queries in parallel in Apache Spark

過濾RDD時“項目不帶參數”-Scala，Apache Spark

[英]“Item does not take parameters” when filtering RDD - scala, Apache Spark

在RDD上使用take方法時，Apache Spark投擲反序列化錯誤

[英]Apache Spark Throwing Deserialization Error when using take method on RDD

為什么map函數本質上是並行的？

[英]why is the map function inherently parallel?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 為Apache Spark編寫並行代碼為什么並行聚合在火花中沒有更快？ spark將函數並行應用於列 apache spark agg() 函數 Apache Spark中的聚合函數是否在Apache Spark中並行執行同一RDD上的兩個轉換？如何在Apache Spark中並行運行兩個SparkSql查詢過濾RDD時“項目不帶參數”-Scala，Apache Spark 在RDD上使用take方法時，Apache Spark投擲反序列化錯誤為什么map函數本質上是並行的？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM