標簽[rdd] - 堆棧內存溢出

[英]PySpark RDD: Manipulating Inner Array

我有一個數據集（例如）打印語句返回 [(1, [2, 3, 4, 5])] 我現在需要在 RDD 中將子數組中的所有內容乘以 2。由於我已經並行化，我無法進一步分解“y.take(1)”以將 [2, 3, 4, 5] 乘以 2。我如何從本質上隔離我的工作節點之間的內部數組，然后進行乘法運算？ ...

從字典中添加 RDD Python 中的 NumpyArray 值

[英]Adding NumpyArray Values in RDD Python from Dictionary

如何分別在 RDD 中添加字典中的值？我有以下內容：我希望最終的 output 成為 numpy 數組中的以下內容：如何在 numpy 數組中添加這個 output？ ...

循環遍歷 RDD 元素，讀取其內容以進行進一步處理

[英]Loop through RDD elements, read its content for further processing

我有一個包含n個文件的文件夾。我正在創建一個 RDD，其中包含上述文件夾的所有文件名，代碼如下：我想遍歷這些RDD元素並處理以下步驟：讀取每個元素的內容（每個元素都是一個文件路徑，所以需要通過SparkContext讀取內容）以上內容應該是另一個 RDD，我想將其作為參數傳遞給 Functi ...

根據Spark中的空行拆分文本文件

[英]Splitting a text file based on empty lines in Spark

我正在處理一個非常大的文件，它是一個幾乎 2GB 的非常大的文本文檔。像這樣的東西 - 我想在 spark 中讀取它們並根據 spark 中的空塊拆分它們並在 PySpark 中創建這些數據的塊。 #*Entity-relationship diagrams which are in BCNF # ...

如何在 RDD Python 中將元素列表轉換為 1 或 0？

[英]How do I convert list of elements to 1 or 0 in RDD Python?

我想讓列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都為 1，而所有不在列表中的值都為 0。我該怎么做？我有一本字典和一個列表： **我希望 output 如下所示：** 我想讓列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都為 1，而所有不在列 ...

PicklingError：無法序列化 object：IndexError：元組索引超出范圍

[英]PicklingError: Could not serialize object: IndexError: tuple index out of range

我在 cmd 中啟動了 pyspark 並執行了以下操作以提高我的技能。當我執行 a.take(1) 時，出現“_pickle.PicklingError：無法序列化 object：IndexError：元組索引超出范圍”錯誤，我無法找到原因。在 google colab 上運行時，它不會拋出任 ...

火花 dataframe 過濾器 function 不工作

[英]spark dataframe filter function not working

我是 spark 的新手，我們有一個從 hbase 讀取數據並將其保存到 rdd 的項目。 dataframe 計數為 5280000，代碼如下：val df = spark.createDataFrame(rddDump, schema) def sampledOrNot = udf((cou ...

groupbykey 之后的 spark rdd 過濾器

[英]spark rdd filter after groupbykey

在 groupByKey 之后我想過濾第二個元素不等於 1 並得到("b", (1, "m")),("b", (2, "n")), ("c", (1, "m")), ("c", (5, "m")) groupByKey()是必須的，可以幫助我，非常感謝。添加：但是如果第二個元素類型是strin ...

使用值使用 groupbykey 后對 rdd 進行排序

[英]Sorting an rdd after using groupbykey using values

我有JavaPairRDD作為由於groupbykey()不維護訂單， orderby在這里不起作用。我想使用數據集中的一些字段對Iterable<Row>進行排序。 ...

Pyspark 減少 function 導致 StackOverflowError

[英]Pyspark reduce function causes StackOverflowError

我正在使用一個相當大的 dataframe（大約 10 萬行，目的是達到 1000 萬行）並且它具有以下結構：我想添加一個 label 並且我正在使用以下 function 來這樣做：其中blocks是一個包含塊的列表（讓我們稱之為令牌）定義行是否異常。此函數檢查Content字段是否包含b ...

在 Spark 作業之間共享存儲級別為 NONE 的 RDD

[英]Sharing RDDs with storage level NONE among Spark jobs

我有多個 Spark 作業，它們共享數據流圖的一部分，包括昂貴的洗牌操作。如果我堅持使用 RDD，我會看到預期的巨大改進 (22x)。然而，即使我將這些 RDD 的存儲級別保持為NONE ，僅通過在作業之間共享 RDD，我仍然看到高達 4 倍的改進。為什么？我假設 Sark 總是重新計算存 ...

如何在 reduceByKey 結果上操作 reduceByKey

[英]How to operate reduceByKey on a reduceByKey result

我正在嘗試對reduceByKey結果執行reduceByKey 。目標是看看我們每年是否有長尾效應——這里的長尾意味着我想每年（分別）看到今年銷售額的 65% 或更多來自 20% 或更少的產品。這是我的數據集：數據集 - 年份和 asin（它的 ID）我想首先 - 按年減少，然后每年（分別 ...

在 Python 中使用 Spark Core 組合來自 JSON 和 CSV 文件的數據

[英]Combining data from JSON and CSV files using Spark Core in Python

嘗試編寫一個 Python 腳本，該腳本從 Google Drive 文件中獲取一個 JSON 文件和多個 CSV 文件，並僅使用 Spark Core 分析和操作其數據。此代碼的 function 是用 JSON 和 CSV 文件中的數據創建元組。這兩個文件共享一個共同的信息項，這是每個文件（ ...

PySpark count() 無法處理 684 GB.txt 文件

[英]PySpark count() can't process 684 GB .txt file

我正在使用 PySpark 來查看每個時間戳使用count()在這個非常大的數據集中出現了多少次。我的數據集來自一個684 GB的 .txt 文件。但是，當我使用 count() 時，它會花費很長時間並最終停止嘗試處理。我的工作計算機有 16 GB Memory 和 4 個 CPU 內核。我 ...

如何在不同的 ggplot 散點圖中以不同方式描繪我的 lm() model？

[英]How can I portray my lm() model across different ggplot scatterplot differently?

我目前正在根據多個因素（准確地說是 7 個不同的變量）對 GDP 進行回歸，我的 x 變量是季度日期（2006 年第一季度到 2020 年第四季度）。我需要 plot 我的散點圖 plot 用於帶有日期的 GDP 和 plot 我的 lm() 線性線在它上面。我不能使用 geom_smooth ...

Spark dataframe map 根鍵與字符串類型的另一列數組的元素

[英]Spark dataframe map root key with elements of array of another column of string type

實際上我遇到了一個問題，我有一個 dataframe，其中 2 列具有架構 actions 列實際上包含對象數組，但它的類型是字符串，因此我不能在這里使用 explode 樣本數據：每個 object 操作中還有一些其他鍵，但為簡單起見，我在這里取了 2 個。我想將其轉換為以下格式 OUTPU ...

如何計算 pyspark 流媒體中按類別的平均值？

[英]How to calculate average by category in pyspark streaming?

我有 csv 數據作為 DStreams 來自流量計數器。樣本如下我想按車輛類別計算平均速度（每個位置）。我想通過轉型來實現這一目標。以下是我正在尋找的結果。 ...

BigDL docker 容器錯誤：Py4JJavaError：調用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 時發生錯誤

[英]BigDL docker container error: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe

我從這個 BigDL 圖像創建了一個 docker 容器。當我嘗試使用 collect() 收集預測時，出現此錯誤：Py4JJavaError：調用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 時發生錯誤。 PS：java版本是 ...

使用 rdd.map 將 html 轉換為 json

[英]convert html to json using rdd.map

我有 html 文件，我想在 pySpark 中解析它。例子：但在我的筆記本 output 中，我對列表元素有疑問。它們被錯誤地解析。列表元素表示為一個字符串行。我的 function 來解析它： txt 文件中的結果是我想接收：但在我的筆記本 output 中，我對列表元素有疑問。 ...

在不使用 rdd 的情況下將數據塊中的 pyspark dataframe 列轉換為列表

[英]convert a pyspark dataframe column in databricks as a list without using rdd

我試圖收集數據塊中 pyspark dataframe 列的值作為列表。當我使用 collect function ，我得到一個包含額外值的列表。基於一些搜索， using.rdd.flatmap() 可以解決問題但是，出於某些安全原因（它說 rdd 未列入白名單），我無法執行或使用 rdd。 ...