cost 254 ms
PySpark RDD:操縱內部數組

[英]PySpark RDD: Manipulating Inner Array

我有一個數據集(例如) 打印語句返回 [(1, [2, 3, 4, 5])] 我現在需要在 RDD 中將子數組中的所有內容乘以 2。 由於我已經並行化,我無法進一步分解“y.take(1)”以將 [2, 3, 4, 5] 乘以 2。 我如何從本質上隔離我的工作節點之間的內部數組,然后進行乘法運算? ...

循環遍歷 RDD 元素,讀取其內容以進行進一步處理

[英]Loop through RDD elements, read its content for further processing

我有一個包含n個文件的文件夾。 我正在創建一個 RDD,其中包含上述文件夾的所有文件名,代碼如下: 我想遍歷這些RDD元素並處理以下步驟: 讀取每個元素的內容(每個元素都是一個文件路徑,所以需要通過SparkContext讀取內容) 以上內容應該是另一個 RDD,我想將其作為參數傳遞給 Functi ...

根據Spark中的空行拆分文本文件

[英]Splitting a text file based on empty lines in Spark

我正在處理一個非常大的文件,它是一個幾乎 2GB 的非常大的文本文檔。 像這樣的東西 - 我想在 spark 中讀取它們並根據 spark 中的空塊拆分它們並在 PySpark 中創建這些數據的塊。 #*Entity-relationship diagrams which are in BCNF # ...

如何在 RDD Python 中將元素列表轉換為 1 或 0?

[英]How do I convert list of elements to 1 or 0 in RDD Python?

我想讓列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都為 1,而所有不在列表中的值都為 0。我該怎么做? 我有一本字典和一個列表: **我希望 output 如下所示:** 我想讓列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都為 1,而所有不在列 ...

PicklingError:無法序列化 object:IndexError:元組索引超出范圍

[英]PicklingError: Could not serialize object: IndexError: tuple index out of range

我在 cmd 中啟動了 pyspark 並執行了以下操作以提高我的技能。 當我執行 a.take(1) 時,出現“_pickle.PicklingError:無法序列化 object:IndexError:元組索引超出范圍”錯誤,我無法找到原因。 在 google colab 上運行時,它不會拋出任 ...

火花 dataframe 過濾器 function 不工作

[英]spark dataframe filter function not working

我是 spark 的新手,我們有一個從 hbase 讀取數據並將其保存到 rdd 的項目。 dataframe 計數為 5280000,代碼如下:val df = spark.createDataFrame(rddDump, schema) def sampledOrNot = udf((cou ...

groupbykey 之后的 spark rdd 過濾器

[英]spark rdd filter after groupbykey

在 groupByKey 之后我想過濾第二個元素不等於 1 並得到("b", (1, "m")),("b", (2, "n")), ("c", (1, "m")), ("c", (5, "m")) groupByKey()是必須的,可以幫助我,非常感謝。 添加:但是如果第二個元素類型是strin ...

Pyspark 減少 function 導致 StackOverflowError

[英]Pyspark reduce function causes StackOverflowError

我正在使用一個相當大的 dataframe(大約 10 萬行,目的是達到 1000 萬行)並且它具有以下結構: 我想添加一個 label 並且我正在使用以下 function 來這樣做: 其中blocks是一個包含塊的列表(讓我們稱之為令牌)定義行是否異常。 此函數檢查Content字段是否包含b ...

在 Spark 作業之間共享存儲級別為 NONE 的 RDD

[英]Sharing RDDs with storage level NONE among Spark jobs

我有多個 Spark 作業,它們共享數據流圖的一部分,包括昂貴的洗牌操作。 如果我堅持使用 RDD,我會看到預期的巨大改進 (22x)。 然而,即使我將這些 RDD 的存儲級別保持為NONE ,僅通過在作業之間共享 RDD,我仍然看到高達 4 倍的改進。 為什么? 我假設 Sark 總是重新計算存 ...

如何在 reduceByKey 結果上操作 reduceByKey

[英]How to operate reduceByKey on a reduceByKey result

我正在嘗試對reduceByKey結果執行reduceByKey 。 目標是看看我們每年是否有長尾效應——這里的長尾意味着我想每年(分別)看到今年銷售額的 65% 或更多來自 20% 或更少的產品。 這是我的數據集:數據集 - 年份和 asin(它的 ID) 我想首先 - 按年減少,然后每年(分別 ...

2022-12-21 12:59:05   2   34    pyspark / rdd  
在 Python 中使用 Spark Core 組合來自 JSON 和 CSV 文件的數據

[英]Combining data from JSON and CSV files using Spark Core in Python

嘗試編寫一個 Python 腳本,該腳本從 Google Drive 文件中獲取一個 JSON 文件和多個 CSV 文件,並僅使用 Spark Core 分析和操作其數據。 此代碼的 function 是用 JSON 和 CSV 文件中的數據創建元組。 這兩個文件共享一個共同的信息項,這是每個文件( ...

PySpark count() 無法處理 684 GB.txt 文件

[英]PySpark count() can't process 684 GB .txt file

我正在使用 PySpark 來查看每個時間戳使用count()在這個非常大的數據集中出現了多少次。 我的數據集來自一個684 GB的 .txt 文件。 但是,當我使用 count() 時,它會花費很長時間並最終停止嘗試處理。 我的工作計算機有 16 GB Memory 和 4 個 CPU 內核。 我 ...

如何在不同的 ggplot 散點圖中以不同方式描繪我的 lm() model?

[英]How can I portray my lm() model across different ggplot scatterplot differently?

我目前正在根據多個因素(准確地說是 7 個不同的變量)對 GDP 進行回歸,我的 x 變量是季度日期(2006 年第一季度到 2020 年第四季度)。 我需要 plot 我的散點圖 plot 用於帶有日期的 GDP 和 plot 我的 lm() 線性線在它上面。 我不能使用 geom_smooth ...

Spark dataframe map 根鍵與字符串類型的另一列數組的元素

[英]Spark dataframe map root key with elements of array of another column of string type

實際上我遇到了一個問題,我有一個 dataframe,其中 2 列具有架構 actions 列實際上包含對象數組,但它的類型是字符串,因此我不能在這里使用 explode 樣本數據: 每個 object 操作中還有一些其他鍵,但為簡單起見,我在這里取了 2 個。 我想將其轉換為以下格式 OUTPU ...

BigDL docker 容器錯誤:Py4JJavaError:調用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 時發生錯誤

[英]BigDL docker container error: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe

我從這個 BigDL 圖像創建了一個 docker 容器。 當我嘗試使用 collect() 收集預測時,出現此錯誤:Py4JJavaError:調用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 時發生錯誤。 PS:java版本是 ...

使用 rdd.map 將 html 轉換為 json

[英]convert html to json using rdd.map

我有 html 文件,我想在 pySpark 中解析它。 例子: 但在我的筆記本 output 中,我對列表元素有疑問。 它們被錯誤地解析。 列表元素表示為一個字符串行。 我的 function 來解析它: txt 文件中的結果是我想接收: 但在我的筆記本 output 中,我對列表元素有疑問。 ...

在不使用 rdd 的情況下將數據塊中的 pyspark dataframe 列轉換為列表

[英]convert a pyspark dataframe column in databricks as a list without using rdd

我試圖收集數據塊中 pyspark dataframe 列的值作為列表。 當我使用 collect function ,我得到一個包含額外值的列表。 基於一些搜索, using.rdd.flatmap() 可以解決問題但是,出於某些安全原因(它說 rdd 未列入白名單),我無法執行或使用 rdd。 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM