cost 330 ms
矩陣除以一個數

[英]divide Matrix by a number

我有一個 BlockMatrix,我想將這個矩陣除以一個數字(例如除以 2)。 但是,pyspark.mllib 矩陣庫不提供任何 function 用於除數,僅用於點積和加法/減法。 我如何設法將塊矩陣中的每個條目除以一個數字? ...

PySpark 到 PMML - 無法構建 PMML 文件

[英]PySpark to PMML - Failed to build PMML file

目前,我正在開發一個生成 PMML 的簡單機器學習程序。 對於這個實驗,我使用 PySpark 作為機器學習庫,使用 pyspark2pmml 作為 PMML 構建器。 我在構建 PMML 文件時遇到問題。 從數據加載到訓練model的所有過程都沒有問題。 但是,我無法使用前面步驟中轉換后的數據生成 ...

Spark-scala:將 dataframe 轉換為 mllib 矩陣

[英]Spark-scala: Converting dataframe to mllib Matrix

我正在嘗試轉置一個巨大的 dataframe (100Mx20K)。 由於 dataframe 分布在多個節點上並且難以在驅動程序上收集,我想通過mllib矩陣的轉換來進行轉置。 這個想法似乎已經在別處進行了測試,所以選擇的過程如下: 我注意到一種可能的類型並嘗試替換: 但是,兩者都不適合我,並且上 ...

如何克服“ValueError: Resolve param in estimatorParamMaps failed”PySpark 錯誤?

[英]How to overcome "ValueError: Resolve param in estimatorParamMaps failed" PySpark error?

我正在嘗試保存網格搜索的 PySpark TrainValidationSplitModel object,並且在調整邏輯回歸的正則化時出現以下奇怪錯誤: 這是導致錯誤的代碼。 此代碼與以前的LogisticRegression PySpark model 一起使用,我在其中調整了maxIter參 ...

為什么我們應該避免在 PySpark 中使用 for 循環?

[英]why exactly should we avoid using for loops in PySpark?

我試圖加快我的一些管道,但無法得到准確的答案。 取決於實現,一些for 循環是否可以? 什么時候可以使用循環而不會對性能造成太大影響? 我讀了 David Mudrauskas 的這篇好文章 這個不錯的堆棧溢出答案 Spark RDD docs ,它建議一般來說,閉包——像循環或局部定義的方法這樣 ...

計算 PySpark 中每個樣本的輪廓系數

[英]Calculate Silhouette coefficient for each sample in PySpark

賞金將在 6 小時后到期。 此問題的答案有資格獲得+50聲望賞金。 Sreeram TP希望引起對這個問題的更多關注。 我在 pyspark 中有一個 Spark ML 管道,看起來像這樣, 在訓練 model 之后,我想在 sklearn 中獲得每個樣本的輪廓系數,就像這個function 我 ...

對列表功能的 One-Hot 編碼。 派斯帕克

[英]One-Hot Encoding to a list feature. Pyspark

我想准備我的數據集以供機器學習算法使用。 我有一個由與每個電視劇(我的記錄)關聯的標簽列表組成的功能。 可以直接應用 one-hot 編碼,還是最好先提取上述列表的所有可能元素? 我的想法是使用這個標簽進行下一次分析。 這是我的數據集和應用於它的代碼的示例。 ...

(pyspark.ml) 調整 ALS model 與 CrossValidator 錯誤: : 要求失敗: 沒有添加到這個總結器

[英](pyspark.ml) Tuning ALS model with CrossValidator ERROR! : Requirement failed: Nothing has been added to this summarizer

我正在嘗試調整 ALS 矩陣分解 model 的參數。 所以我使用 pyspark.ml.tuning.CrossValidator 來運行參數網格和 select 最好的 model。 但是當使用 CrossValidator 進行調整時,我總是得到 ERROR.. 錯誤如下圖所示,參考下面sta ...

在 Spark Mllib 中創建一個句子轉換器 model

[英]Creating a sentence-transformer model in Spark Mllib

我使用句子轉換器庫中的預訓練 model 來檢查兩個句子之間的相似度。 現在我需要使用 spark mllib 來實現這個特定的 model。 有什么建議么? 我真的很感激你能提供的任何幫助。 https://www.sbert.net/ https://spark.apache.org/mll ...

如何在火花中實施插補

[英]How to implement Imputation in spark

我想執行均值、中值、模式並使用用戶定義的值對 spark dataframe 進行插補在 java 中有沒有最好的方法來做這些。 例如,假設我有這五個列,並且可以對其中任何一個執行插補: id, name, age, marks, 百分比 ...

矩陣分解 model 在預測 pyspark 中的評級后返回小得多的 dataframe

[英]matrix factorization model returning much smaller dataframe after predicting ratings in pyspark

我正在嘗試使用以下代碼創建產品推薦器。 我正在使用 spark ml 的矩陣分解。 我的數據具有已規范化的 customer_id、product_id 和數字評級值。 所以所有評級值都在 0 和 1 之間。我的數據集有近 1000 萬條記錄,沒有 null product_id 或 custom ...

如何在 SparklyR 中從我的 model 中提取 feature_importances?

[英]How do I extract feature_importances from my model in SparklyR?

我想從 SparklyR 中的 model 中提取feature_importances 。 到目前為止,我有以下正在運行的可重現代碼: 當我嘗試運行下面的ml_stage步驟時,我發現我無法提取feature_importances的向量,而是一個 function。之前的帖子(如何在 Spar ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM