![](/img/trans.png)
[英]divide Matrix by a number
我有一個 BlockMatrix,我想將這個矩陣除以一個數字(例如除以 2)。 但是,pyspark.mllib 矩陣庫不提供任何 function 用於除數,僅用於點積和加法/減法。 我如何設法將塊矩陣中的每個條目除以一個數字? ...
[英]divide Matrix by a number
我有一個 BlockMatrix,我想將這個矩陣除以一個數字(例如除以 2)。 但是,pyspark.mllib 矩陣庫不提供任何 function 用於除數,僅用於點積和加法/減法。 我如何設法將塊矩陣中的每個條目除以一個數字? ...
[英]TypeError: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector
我有一個 dataframe 有多行,如下所示: df.head() 給出: 現在我想計算我的 dataframe 上的 columnSimilarities(),我執行以下操作: 但是,我收到以下錯誤: 有人可以幫我弄這個嗎? 謝謝! ...
[英]PySpark to PMML - Failed to build PMML file
目前,我正在開發一個生成 PMML 的簡單機器學習程序。 對於這個實驗,我使用 PySpark 作為機器學習庫,使用 pyspark2pmml 作為 PMML 構建器。 我在構建 PMML 文件時遇到問題。 從數據加載到訓練model的所有過程都沒有問題。 但是,我無法使用前面步驟中轉換后的數據生成 ...
[英]Spark-scala: Converting dataframe to mllib Matrix
我正在嘗試轉置一個巨大的 dataframe (100Mx20K)。 由於 dataframe 分布在多個節點上並且難以在驅動程序上收集,我想通過mllib矩陣的轉換來進行轉置。 這個想法似乎已經在別處進行了測試,所以選擇的過程如下: 我注意到一種可能的類型並嘗試替換: 但是,兩者都不適合我,並且上 ...
[英]How to overcome "ValueError: Resolve param in estimatorParamMaps failed" PySpark error?
我正在嘗試保存網格搜索的 PySpark TrainValidationSplitModel object,並且在調整邏輯回歸的正則化時出現以下奇怪錯誤: 這是導致錯誤的代碼。 此代碼與以前的LogisticRegression PySpark model 一起使用,我在其中調整了maxIter參 ...
[英]why exactly should we avoid using for loops in PySpark?
我試圖加快我的一些管道,但無法得到准確的答案。 取決於實現,一些for 循環是否可以? 什么時候可以使用循環而不會對性能造成太大影響? 我讀了 David Mudrauskas 的這篇好文章 這個不錯的堆棧溢出答案 Spark RDD docs ,它建議一般來說,閉包——像循環或局部定義的方法這樣 ...
[英]How to return a value to a val using if statement?
我正在嘗試將 var 分配轉換為 val 分配。 目前我的代碼是 我想做這樣的事情 我遇到了這個錯誤 我正在嘗試將數組從 if 條件返回到我的 Val normNumericalColNameArray。 有人可以幫忙嗎? ...
[英]Calculate Silhouette coefficient for each sample in PySpark
賞金將在 6 小時后到期。 此問題的答案有資格獲得+50聲望賞金。 Sreeram TP希望引起對這個問題的更多關注。 我在 pyspark 中有一個 Spark ML 管道,看起來像這樣, 在訓練 model 之后,我想在 sklearn 中獲得每個樣本的輪廓系數,就像這個function 我 ...
[英]One-Hot Encoding to a list feature. Pyspark
我想准備我的數據集以供機器學習算法使用。 我有一個由與每個電視劇(我的記錄)關聯的標簽列表組成的功能。 可以直接應用 one-hot 編碼,還是最好先提取上述列表的所有可能元素? 我的想法是使用這個標簽進行下一次分析。 這是我的數據集和應用於它的代碼的示例。 ...
[英]Get topN keywords with PySpark CountVectorizer
我想使用pyspark.ml.feature.CountVectorizer提取關鍵字。 我的輸入 Spark 數據框如下所示: ID 文本 1 太陽, 火星, 太陽系, 太陽系, 火星, 太陽系, 金星, 太 ...
[英](pyspark.ml) Tuning ALS model with CrossValidator ERROR! : Requirement failed: Nothing has been added to this summarizer
我正在嘗試調整 ALS 矩陣分解 model 的參數。 所以我使用 pyspark.ml.tuning.CrossValidator 來運行參數網格和 select 最好的 model。 但是當使用 CrossValidator 進行調整時,我總是得到 ERROR.. 錯誤如下圖所示,參考下面sta ...
[英]How to evaluate Accuracy for Classification model in Pyspark?
我正在研究 pyspark 並在多類分類問題上運行模型,但不知道如何評估分類模型的准確性。 這是我的邏輯回歸代碼,它也是模型的計算時間。 這是我的代碼的屏幕截圖 ...
[英]Creating a sentence-transformer model in Spark Mllib
我使用句子轉換器庫中的預訓練 model 來檢查兩個句子之間的相似度。 現在我需要使用 spark mllib 來實現這個特定的 model。 有什么建議么? 我真的很感激你能提供的任何幫助。 https://www.sbert.net/ https://spark.apache.org/mll ...
[英]Spark ALS model.transform(test) drops rows from test. What could be the reason?
test (包含列的表: user_id , item_id , rating ,有620 萬行) predictions (包含列的表: user_id 、 item_id 、 rating 、 prediction ,但只有170 萬行) 為什么model.transform(test ...
[英]How to implement Imputation in spark
我想執行均值、中值、模式並使用用戶定義的值對 spark dataframe 進行插補在 java 中有沒有最好的方法來做這些。 例如,假設我有這五個列,並且可以對其中任何一個執行插補: id, name, age, marks, 百分比 ...
[英]Best way to Create a custom Transformer In Java spark ml
我正在使用 Apache spark 學習大數據,我想為 Spark ml 創建一個自定義轉換器,以便我可以執行一些聚合函數或可以對其執行其他可能的操作 ...
[英]Apply vectors.Dense() to an array float column in pyspark 3.2.1
為了從pyspark.ml.feature應用 PCA,我需要將org.apache.spark.sql.types.ArrayType:array<float>轉換為org.apache.spark.ml.linalg.VectorUDT說我有以下內容dataframe: 雖然a = ...
[英]Implementing RL algorithm on apache spark
我想在 Apache Spark 上運行 RL 算法。 然而,RL 並不存在於 Spark 的 MLib 中。 有可能實施嗎? 任何鏈接都可能有所幫助。 先感謝您 ...
[英]matrix factorization model returning much smaller dataframe after predicting ratings in pyspark
我正在嘗試使用以下代碼創建產品推薦器。 我正在使用 spark ml 的矩陣分解。 我的數據具有已規范化的 customer_id、product_id 和數字評級值。 所以所有評級值都在 0 和 1 之間。我的數據集有近 1000 萬條記錄,沒有 null product_id 或 custom ...
[英]How do I extract feature_importances from my model in SparklyR?
我想從 SparklyR 中的 model 中提取feature_importances 。 到目前為止,我有以下正在運行的可重現代碼: 當我嘗試運行下面的ml_stage步驟時,我發現我無法提取feature_importances的向量,而是一個 function。之前的帖子(如何在 Spar ...