標簽[apache-spark-mllib] - 堆棧內存溢出

矩陣除以一個數

[英]divide Matrix by a number

我有一個 BlockMatrix，我想將這個矩陣除以一個數字（例如除以 2）。但是，pyspark.mllib 矩陣庫不提供任何 function 用於除數，僅用於點積和加法/減法。我如何設法將塊矩陣中的每個條目除以一個數字？ ...

類型錯誤：無法轉換類型<class 'pyspark.sql.types.row'>轉化為向量</class>

[英]TypeError: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector

我有一個 dataframe 有多行，如下所示： df.head() 給出：現在我想計算我的 dataframe 上的 columnSimilarities()，我執行以下操作：但是，我收到以下錯誤：有人可以幫我弄這個嗎？謝謝！ ...

PySpark 到 PMML - 無法構建 PMML 文件

[英]PySpark to PMML - Failed to build PMML file

目前，我正在開發一個生成 PMML 的簡單機器學習程序。對於這個實驗，我使用 PySpark 作為機器學習庫，使用 pyspark2pmml 作為 PMML 構建器。我在構建 PMML 文件時遇到問題。從數據加載到訓練model的所有過程都沒有問題。但是，我無法使用前面步驟中轉換后的數據生成 ...

Spark-scala：將 dataframe 轉換為 mllib 矩陣

[英]Spark-scala: Converting dataframe to mllib Matrix

我正在嘗試轉置一個巨大的 dataframe (100Mx20K)。由於 dataframe 分布在多個節點上並且難以在驅動程序上收集，我想通過mllib矩陣的轉換來進行轉置。這個想法似乎已經在別處進行了測試，所以選擇的過程如下：我注意到一種可能的類型並嘗試替換：但是，兩者都不適合我，並且上 ...

如何克服“ValueError: Resolve param in estimatorParamMaps failed”PySpark 錯誤？

[英]How to overcome "ValueError: Resolve param in estimatorParamMaps failed" PySpark error?

我正在嘗試保存網格搜索的 PySpark TrainValidationSplitModel object，並且在調整邏輯回歸的正則化時出現以下奇怪錯誤：這是導致錯誤的代碼。此代碼與以前的LogisticRegression PySpark model 一起使用，我在其中調整了maxIter參 ...

為什么我們應該避免在 PySpark 中使用 for 循環？

[英]why exactly should we avoid using for loops in PySpark?

我試圖加快我的一些管道，但無法得到准確的答案。取決於實現，一些for 循環是否可以？什么時候可以使用循環而不會對性能造成太大影響？我讀了 David Mudrauskas 的這篇好文章這個不錯的堆棧溢出答案 Spark RDD docs ，它建議一般來說，閉包——像循環或局部定義的方法這樣 ...

如何使用 if 語句將值返回給 val？

[英]How to return a value to a val using if statement?

我正在嘗試將 var 分配轉換為 val 分配。目前我的代碼是我想做這樣的事情我遇到了這個錯誤我正在嘗試將數組從 if 條件返回到我的 Val normNumericalColNameArray。有人可以幫忙嗎？ ...

計算 PySpark 中每個樣本的輪廓系數

[英]Calculate Silhouette coefficient for each sample in PySpark

賞金將在 6 小時后到期。此問題的答案有資格獲得+50聲望賞金。 Sreeram TP希望引起對這個問題的更多關注。我在 pyspark 中有一個 Spark ML 管道，看起來像這樣，在訓練 model 之后，我想在 sklearn 中獲得每個樣本的輪廓系數，就像這個function 我 ...

對列表功能的 One-Hot 編碼。派斯帕克

[英]One-Hot Encoding to a list feature. Pyspark

我想准備我的數據集以供機器學習算法使用。我有一個由與每個電視劇（我的記錄）關聯的標簽列表組成的功能。可以直接應用 one-hot 編碼，還是最好先提取上述列表的所有可能元素？我的想法是使用這個標簽進行下一次分析。這是我的數據集和應用於它的代碼的示例。 ...

使用 PySpark CountVectorizer 獲取 topN 關鍵字

[英]Get topN keywords with PySpark CountVectorizer

我想使用pyspark.ml.feature.CountVectorizer提取關鍵字。我的輸入 Spark 數據框如下所示： ID 文本 1 太陽, 火星, 太陽系, 太陽系, 火星, 太陽系, 金星, 太 ...

(pyspark.ml) 調整 ALS model 與 CrossValidator 錯誤: : 要求失敗: 沒有添加到這個總結器

[英](pyspark.ml) Tuning ALS model with CrossValidator ERROR! : Requirement failed: Nothing has been added to this summarizer

我正在嘗試調整 ALS 矩陣分解 model 的參數。所以我使用 pyspark.ml.tuning.CrossValidator 來運行參數網格和 select 最好的 model。但是當使用 CrossValidator 進行調整時，我總是得到 ERROR.. 錯誤如下圖所示，參考下面sta ...

如何評估 Pyspark 中分類模型的准確性？

[英]How to evaluate Accuracy for Classification model in Pyspark?

我正在研究 pyspark 並在多類分類問題上運行模型，但不知道如何評估分類模型的准確性。這是我的邏輯回歸代碼，它也是模型的計算時間。這是我的代碼的屏幕截圖 ...

在 Spark Mllib 中創建一個句子轉換器 model

[英]Creating a sentence-transformer model in Spark Mllib

我使用句子轉換器庫中的預訓練 model 來檢查兩個句子之間的相似度。現在我需要使用 spark mllib 來實現這個特定的 model。有什么建議么？我真的很感激你能提供的任何幫助。 https://www.sbert.net/ https://spark.apache.org/mll ...

Spark ALS model.transform(test) 從測試中刪除行。可能是什么原因？

[英]Spark ALS model.transform(test) drops rows from test. What could be the reason?

test （包含列的表： user_id ， item_id ， rating ，有620 萬行） predictions （包含列的表： user_id 、 item_id 、 rating 、 prediction ，但只有170 萬行）為什么model.transform(test ...

如何在火花中實施插補

[英]How to implement Imputation in spark

我想執行均值、中值、模式並使用用戶定義的值對 spark dataframe 進行插補在 java 中有沒有最好的方法來做這些。例如，假設我有這五個列，並且可以對其中任何一個執行插補： id, name, age, marks, 百分比 ...

在 Java spark ml 中創建自定義變壓器的最佳方法

[英]Best way to Create a custom Transformer In Java spark ml

我正在使用 Apache spark 學習大數據，我想為 Spark ml 創建一個自定義轉換器，以便我可以執行一些聚合函數或可以對其執行其他可能的操作 ...

將 vectors.Dense() 應用於 pyspark 3.2.1 中的數組浮點列

[英]Apply vectors.Dense() to an array float column in pyspark 3.2.1

為了從pyspark.ml.feature應用 PCA，我需要將org.apache.spark.sql.types.ArrayType:array<float>轉換為org.apache.spark.ml.linalg.VectorUDT說我有以下內容dataframe：雖然a = ...

在 apache spark 上實現 RL 算法

[英]Implementing RL algorithm on apache spark

我想在 Apache Spark 上運行 RL 算法。然而，RL 並不存在於 Spark 的 MLib 中。有可能實施嗎？任何鏈接都可能有所幫助。先感謝您 ...

矩陣分解 model 在預測 pyspark 中的評級后返回小得多的 dataframe

[英]matrix factorization model returning much smaller dataframe after predicting ratings in pyspark

我正在嘗試使用以下代碼創建產品推薦器。我正在使用 spark ml 的矩陣分解。我的數據具有已規范化的 customer_id、product_id 和數字評級值。所以所有評級值都在 0 和 1 之間。我的數據集有近 1000 萬條記錄，沒有 null product_id 或 custom ...

如何在 SparklyR 中從我的 model 中提取 feature_importances？

[英]How do I extract feature_importances from my model in SparklyR?

我想從 SparklyR 中的 model 中提取feature_importances 。到目前為止，我有以下正在運行的可重現代碼：當我嘗試運行下面的ml_stage步驟時，我發現我無法提取feature_importances的向量，而是一個 function。之前的帖子（如何在 Spar ...