![](/img/trans.png)
[英]PySpark RDD: Manipulating Inner Array
我有一個數據集(例如) 打印語句返回 [(1, [2, 3, 4, 5])] 我現在需要在 RDD 中將子數組中的所有內容乘以 2。 由於我已經並行化,我無法進一步分解“y.take(1)”以將 [2, 3, 4, 5] 乘以 2。 我如何從本質上隔離我的工作節點之間的內部數組,然后進行乘法運算? ...
[英]PySpark RDD: Manipulating Inner Array
我有一個數據集(例如) 打印語句返回 [(1, [2, 3, 4, 5])] 我現在需要在 RDD 中將子數組中的所有內容乘以 2。 由於我已經並行化,我無法進一步分解“y.take(1)”以將 [2, 3, 4, 5] 乘以 2。 我如何從本質上隔離我的工作節點之間的內部數組,然后進行乘法運算? ...
[英]Adding NumpyArray Values in RDD Python from Dictionary
如何分別在 RDD 中添加字典中的值? 我有以下內容: 我希望最終的 output 成為 numpy 數組中的以下內容: 如何在 numpy 數組中添加這個 output? ...
[英]Loop through RDD elements, read its content for further processing
我有一個包含n個文件的文件夾。 我正在創建一個 RDD,其中包含上述文件夾的所有文件名,代碼如下: 我想遍歷這些RDD元素並處理以下步驟: 讀取每個元素的內容(每個元素都是一個文件路徑,所以需要通過SparkContext讀取內容) 以上內容應該是另一個 RDD,我想將其作為參數傳遞給 Functi ...
[英]Splitting a text file based on empty lines in Spark
我正在處理一個非常大的文件,它是一個幾乎 2GB 的非常大的文本文檔。 像這樣的東西 - 我想在 spark 中讀取它們並根據 spark 中的空塊拆分它們並在 PySpark 中創建這些數據的塊。 #*Entity-relationship diagrams which are in BCNF # ...
[英]How do I convert list of elements to 1 or 0 in RDD Python?
我想讓列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都為 1,而所有不在列表中的值都為 0。我該怎么做? 我有一本字典和一個列表: **我希望 output 如下所示:** 我想讓列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都為 1,而所有不在列 ...
[英]PicklingError: Could not serialize object: IndexError: tuple index out of range
我在 cmd 中啟動了 pyspark 並執行了以下操作以提高我的技能。 當我執行 a.take(1) 時,出現“_pickle.PicklingError:無法序列化 object:IndexError:元組索引超出范圍”錯誤,我無法找到原因。 在 google colab 上運行時,它不會拋出任 ...
[英]spark dataframe filter function not working
我是 spark 的新手,我們有一個從 hbase 讀取數據並將其保存到 rdd 的項目。 dataframe 計數為 5280000,代碼如下:val df = spark.createDataFrame(rddDump, schema) def sampledOrNot = udf((cou ...
[英]spark rdd filter after groupbykey
在 groupByKey 之后我想過濾第二個元素不等於 1 並得到("b", (1, "m")),("b", (2, "n")), ("c", (1, "m")), ("c", (5, "m")) groupByKey()是必須的,可以幫助我,非常感謝。 添加:但是如果第二個元素類型是strin ...
[英]Sorting an rdd after using groupbykey using values
我有JavaPairRDD作為 由於groupbykey()不維護訂單, orderby在這里不起作用。 我想使用數據集中的一些字段對Iterable<Row>進行排序。 ...
[英]Pyspark reduce function causes StackOverflowError
我正在使用一個相當大的 dataframe(大約 10 萬行,目的是達到 1000 萬行)並且它具有以下結構: 我想添加一個 label 並且我正在使用以下 function 來這樣做: 其中blocks是一個包含塊的列表(讓我們稱之為令牌)定義行是否異常。 此函數檢查Content字段是否包含b ...
[英]Sharing RDDs with storage level NONE among Spark jobs
我有多個 Spark 作業,它們共享數據流圖的一部分,包括昂貴的洗牌操作。 如果我堅持使用 RDD,我會看到預期的巨大改進 (22x)。 然而,即使我將這些 RDD 的存儲級別保持為NONE ,僅通過在作業之間共享 RDD,我仍然看到高達 4 倍的改進。 為什么? 我假設 Sark 總是重新計算存 ...
[英]How to operate reduceByKey on a reduceByKey result
我正在嘗試對reduceByKey結果執行reduceByKey 。 目標是看看我們每年是否有長尾效應——這里的長尾意味着我想每年(分別)看到今年銷售額的 65% 或更多來自 20% 或更少的產品。 這是我的數據集:數據集 - 年份和 asin(它的 ID) 我想首先 - 按年減少,然后每年(分別 ...
[英]Combining data from JSON and CSV files using Spark Core in Python
嘗試編寫一個 Python 腳本,該腳本從 Google Drive 文件中獲取一個 JSON 文件和多個 CSV 文件,並僅使用 Spark Core 分析和操作其數據。 此代碼的 function 是用 JSON 和 CSV 文件中的數據創建元組。 這兩個文件共享一個共同的信息項,這是每個文件( ...
[英]PySpark count() can't process 684 GB .txt file
我正在使用 PySpark 來查看每個時間戳使用count()在這個非常大的數據集中出現了多少次。 我的數據集來自一個684 GB的 .txt 文件。 但是,當我使用 count() 時,它會花費很長時間並最終停止嘗試處理。 我的工作計算機有 16 GB Memory 和 4 個 CPU 內核。 我 ...
[英]How can I portray my lm() model across different ggplot scatterplot differently?
我目前正在根據多個因素(准確地說是 7 個不同的變量)對 GDP 進行回歸,我的 x 變量是季度日期(2006 年第一季度到 2020 年第四季度)。 我需要 plot 我的散點圖 plot 用於帶有日期的 GDP 和 plot 我的 lm() 線性線在它上面。 我不能使用 geom_smooth ...
[英]Spark dataframe map root key with elements of array of another column of string type
實際上我遇到了一個問題,我有一個 dataframe,其中 2 列具有架構 actions 列實際上包含對象數組,但它的類型是字符串,因此我不能在這里使用 explode 樣本數據: 每個 object 操作中還有一些其他鍵,但為簡單起見,我在這里取了 2 個。 我想將其轉換為以下格式 OUTPU ...
[英]How to calculate average by category in pyspark streaming?
我有 csv 數據作為 DStreams 來自流量計數器。 樣本如下 我想按車輛類別計算平均速度(每個位置)。 我想通過轉型來實現這一目標。 以下是我正在尋找的結果。 ...
[英]BigDL docker container error: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe
我從這個 BigDL 圖像創建了一個 docker 容器。 當我嘗試使用 collect() 收集預測時,出現此錯誤:Py4JJavaError:調用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 時發生錯誤。 PS:java版本是 ...
[英]convert html to json using rdd.map
我有 html 文件,我想在 pySpark 中解析它。 例子: 但在我的筆記本 output 中,我對列表元素有疑問。 它們被錯誤地解析。 列表元素表示為一個字符串行。 我的 function 來解析它: txt 文件中的結果是我想接收: 但在我的筆記本 output 中,我對列表元素有疑問。 ...
[英]convert a pyspark dataframe column in databricks as a list without using rdd
我試圖收集數據塊中 pyspark dataframe 列的值作為列表。 當我使用 collect function ,我得到一個包含額外值的列表。 基於一些搜索, using.rdd.flatmap() 可以解決問題但是,出於某些安全原因(它說 rdd 未列入白名單),我無法執行或使用 rdd。 ...